Peter Flom te ha dado la respuesta exacta a tu pregunta, aunque no te ha dicho lo que significa. Sospecho que está tratando de hacerte pensar en ello y sacar tus propias conclusiones.
Dado que eso es algo que apruebo completamente en la mayoría de los casos cuando estoy enseñando (y Quora es, para mí, un lugar para satisfacer mi impulso interno de enseñar, aunque en partes muy específicas de temas específicos), había dejado de responder esta pregunta.
Entonces se me ocurrió que puede haber quienes leen la respuesta de Peter que no tienen los antecedentes necesarios para comprender completamente las implicaciones de la declaración de Peter. Les hablaré
- Cómo decidir cuándo es el momento de modificar su modelo
- Cómo sentirse acerca de los datos
- ¿Cuál es exactamente la diferencia entre IA, aprendizaje automático y ciencia de datos? ¿Cómo puedo hacer una carrera en el mismo?
- ¿Cuál es la diferencia entre los datos generados por la actividad y los generados por la máquina en la terminología de Big Data?
- Si elimino un archivo, lo sobrescribo con otro archivo en la misma carpeta y destruyo el nuevo archivo, ¿puedo recuperar el archivo original que estaba inicialmente en la carpeta?
La PCA se ve con mayor frecuencia como una forma de reducir el número de columnas de un conjunto de datos transformándolo. Lo hace encontrando correlaciones entre las columnas y creando nuevas variables que explican más de la correlación en el conjunto de variables transformadas que no están correlacionadas, es decir, transformamos los datos [matemática] X [/ matemática] en [matemática] X ^ \ prime [/ math] para que (generalmente) la columna 1 de este último represente más correlación en el primero que la columna 2, y así sucesivamente, pero estas nuevas columnas no están correlacionadas.
Entonces, en el caso de la pregunta específica que se hace, dado que hay 96 columnas, esperaríamos, dados los datos no correlacionados, que cada columna explique un poco más del 1% de la varianza del conjunto de datos completo. Como eso está muy cerca de lo que se observa, las columnas originales (X) ya están muy cerca de no estar correlacionadas. Esto también significa que con PCA, no podremos reducir la dimensión de nuestro conjunto de datos.
Editar:
Tenga en cuenta que esto no significa nada en términos de ningún proceso de modelado. No hemos hecho referencia a Y (si existe) en absoluto. Tenga en cuenta también que PCA es uno de los muchos algoritmos de reducción de dimensiones, uno que hace algunas suposiciones bastante fuertes. Puede haber otras formas mejores.