Mientras se realiza PCA en 96 variables, la contribución de varianza expandida de cada componente es muy inferior a 1-1.5%. ¿Qué dice sobre los datos?

Peter Flom te ha dado la respuesta exacta a tu pregunta, aunque no te ha dicho lo que significa. Sospecho que está tratando de hacerte pensar en ello y sacar tus propias conclusiones.

Dado que eso es algo que apruebo completamente en la mayoría de los casos cuando estoy enseñando (y Quora es, para mí, un lugar para satisfacer mi impulso interno de enseñar, aunque en partes muy específicas de temas específicos), había dejado de responder esta pregunta.

Entonces se me ocurrió que puede haber quienes leen la respuesta de Peter que no tienen los antecedentes necesarios para comprender completamente las implicaciones de la declaración de Peter. Les hablaré

La PCA se ve con mayor frecuencia como una forma de reducir el número de columnas de un conjunto de datos transformándolo. Lo hace encontrando correlaciones entre las columnas y creando nuevas variables que explican más de la correlación en el conjunto de variables transformadas que no están correlacionadas, es decir, transformamos los datos [matemática] X [/ matemática] en [matemática] X ^ \ prime [/ math] para que (generalmente) la columna 1 de este último represente más correlación en el primero que la columna 2, y así sucesivamente, pero estas nuevas columnas no están correlacionadas.

Entonces, en el caso de la pregunta específica que se hace, dado que hay 96 columnas, esperaríamos, dados los datos no correlacionados, que cada columna explique un poco más del 1% de la varianza del conjunto de datos completo. Como eso está muy cerca de lo que se observa, las columnas originales (X) ya están muy cerca de no estar correlacionadas. Esto también significa que con PCA, no podremos reducir la dimensión de nuestro conjunto de datos.

Editar:

Tenga en cuenta que esto no significa nada en términos de ningún proceso de modelado. No hemos hecho referencia a Y (si existe) en absoluto. Tenga en cuenta también que PCA es uno de los muchos algoritmos de reducción de dimensiones, uno que hace algunas suposiciones bastante fuertes. Puede haber otras formas mejores.

Como JQ y Peter han dicho, significa que sus variables casi no tienen correlación lineal entre sí y, por lo tanto, PCA es básicamente inútil para ese conjunto de datos.

Sin embargo, le insto a profundizar y preguntar por qué hay tan poca correlación lineal entre cualquiera de sus variables. Hable con alguien local que esté familiarizado con los métodos de reducción de dimensionalidad. Tal vez algo no lineal como MDS sea más apropiado.

O puede volver a publicar aquí con muchos más detalles sobre (1) su conjunto de datos y (2) lo que está tratando de lograr para lo cual erróneamente pensó que PCA sería una herramienta adecuada.

Te dice que las variables casi no tienen correlación.

More Interesting

¿Por qué MSFT necesita un jefe de ciencia de datos cuando tiene todos los investigadores de aprendizaje automático en el mundo?

¿Cuáles son algunos buenos problemas con los juguetes en la ingeniería de datos?

¿Por qué es importante la minería de datos?

¿Se puede decir que la diferencia entre Data Science y Machine Learning es que Machine Learning es una técnica a través de la cual se realiza Data Science?

¿Son las certificaciones de Codeacademy SQL y Python lo suficientemente buenas como para ponerlas en un currículum?

¿Recomienda Redis con Node.js para datos muy grandes? Estoy hablando de millones de datos. ¿Sería bueno si Facebook / Amazon usara Redis?

¿Se puede dividir un conjunto de datos en dos conjuntos separados, en un conjunto predicho con precisión y un conjunto de errores?

En el aprendizaje automático, si no sé mucho sobre la corrección de lo anterior, ¿puedo tratar de corregir el modelo a través de grandes cantidades de datos de entrenamiento?

¿Cuál es el futuro de MIS u operadores de datos?

¿Cuáles son los procesos involucrados en el servicio de anexión de datos?

¿Cuál es el futuro de la ciencia de datos en los próximos años? ¿Cómo es el mercado laboral en ciencia de datos para los graduados de nivel de entrada? ¿Es fácil de aprender, o necesitamos hacer más y más trabajo duro para conseguir un trabajo de nivel de entrada?

Cómo encontrar las publicaciones más populares en un sitio web

¿Cómo ayuda la limpieza de datos a expirar datos y clientes potenciales pobres?

¿Cuál es su viaje completo de aprendizaje / aplicación en Machine Learning / Data Science / NLP?

¿Cuáles son algunos modelos precisos o exitosos de calificación de crédito entre pares y qué técnicas y métodos utilizan?