PCA es una técnica de reducción de dimensionalidad. Esto significa que podemos reducir la cantidad de atributos o características en nuestro marco de datos.
¿Porqué necesitamos esto? Debido a limitaciones computacionales.
Sabemos eso: cuantas más funciones, mejor será la predicción.
- ¿Cuál es la diferencia entre la clasificación de vectores de soporte y la regresión? ¿Un regresor de vectores de soporte se comporta como una red neuronal por casualidad?
- Cómo lidiar con una variable independiente categórica que tiene más de 500 variables en un problema de clasificación
- ¿Qué sucede cuando las computadoras aprenden a componer música mejor que los humanos?
- ¿Cómo trata Apache Spark con los datos de registro que se ejecutan en TeraBytes con memoria limitada (por ejemplo, 8 GB)?
- ¿Cuáles son los pros y los contras de los diversos algoritmos de clasificación de Tree Ensemble?
Pero muchas veces, especialmente en la producción, necesitamos encontrar un punto medio entre el poder computacional y la capacidad predictiva.
(Esto depende de muchos otros factores, por ejemplo: nuestra declaración del problema, nuestra precisión requerida, etc.)
Por lo tanto, para hacer que el proceso sea computacionalmente eficiente al reducir el número de características, podemos hacer predicciones relativamente más rápidas en cualquier modelado predictivo.
Pequeño ejemplo: en el procesamiento de imágenes para el reconocimiento de dígitos (ejemplo, conjunto de datos mnist), no siempre usamos todos los píxeles como datos de entrada, aquí usar pca puede hacer que nuestro modelo sea computacionalmente eficiente.