¿Cuáles son las desventajas comunes de tener un conjunto de datos dispersos al crear un modelo ML?

Las desventajas comunes serían (no exactamente para el aprendizaje, sino quizás desde una perspectiva de disponibilidad de recursos)

  • Memoria limitada
  • Poder de procesamiento limitado
  • La combinación de los cuales hace que sea imposible ejecutar los algoritmos a veces o lo hace realmente lento. Sin embargo, puedes evaluar la situación.

La escasez no siempre es una desventaja, a pesar de que hablamos de “La maldición de la dimensionalidad”. De hecho, esto da más información sobre la estimación del modelo.

Puede usar PCA, LDA, Autoencoders, etc. para reducir la dimensionalidad.

El manejo de datos de alta dimensión es complicado y a veces imposible si el algoritmo elegido requiere que todos los datos estén en la memoria.

Sin embargo, existen métodos de “aprendizaje en línea” como el gradiente estocástico, que no requiere que cargue todo el conjunto de datos en la memoria.

(PD: ¡según tengo entendido! Puede haber muchas otras cosas que afectan el proceso)

La escasez en su mayoría significa que manejas datos realmente de alta dimensión, lo que puede ser un problema en sí mismo.

Algunos algoritmos de aprendizaje automático tendrán problemas con dichos datos (por ejemplo, árboles de decisión).