Tenga en cuenta que PCA es una forma de resumir / describir datos. Es una forma de reducir las dimensiones numéricas de un conjunto multivariable. Explicar lo que su análisis significa para los demás puede ser difícil.
Aquí hay un ejemplo hipotético. Suponga que tiene una colección de datos de mediciones de árboles de una cierta variedad. Las propiedades que se midieron y registraron son:
1. Diámetro de cada árbol en pulgadas, medido 4.5 pies sobre el suelo.
2. Altura de cada árbol en pies.
3. Diámetro de la “extensión” del árbol medido en pies como sombra
lanzado por el árbol al mediodía.
4. Número de nidos de pájaros en cada árbol.
5. El ángulo de inclinación de la tierra donde se planta cada árbol.
Estos datos están en una tabla, con cinco columnas en la parte superior para las variables y N filas, una fila por árbol.
Ahora, ¿qué se puede aprender de estos datos?
Comencemos por preguntar cuál es la característica más importante de los árboles.
- ¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?
- ¿Cuáles son las mejores fuentes para aprender el aprendizaje automático y el procesamiento del lenguaje natural?
- ¿Cómo elijo theta0, thetaL y thetaU en un modelo de proceso gaussiano de scikit-learn?
- ¿Qué es la plataforma World Modeler y cómo se compara con plataformas similares?
- En forma de estudios de caso, ¿cómo utilizan las empresas financieras el aprendizaje automático?
Supongamos que ejecutamos un PCA en la matriz de correlación derivada de nuestros datos.
No es de extrañar … La altura y el diámetro están fuertemente correlacionados. El diámetro de la sombra se correlaciona fuertemente con la altura y el diámetro del tronco del árbol. Ejecutemos un PCA en la matriz de correlación. Probablemente encontraremos que el valor propio más grande (característica más importante de los árboles) es mucho más grande que los otros cuatro valores propios. El vector propio. para ese mayor valor propio, lo más probable es que tenga tres “pesos” grandes (mi terminología) y dos pesos pequeños. Los pesos más grandes serán para el diámetro del tronco, la altura y el diámetro del molde de sombra. Los pesos para el próximo recuento de aves e inclinación del suelo probablemente serán muy pequeños en relación con los tres más grandes. El “peso” tendrá todos los mismos signos.
Eso es porque los coeficientes de correlación entre aquellos
Tres factores importantes son todos del mismo signo, positivo.
Este vector propio ahora es una representación de tres variables de los datos de los árboles.
Es decir, hay tres factores importantes que describen un árbol. Al pensarlo, nombremos ese vector propio “tamaño del árbol” o tamaño del árbol.
Esto es fácil porque todos estaríamos de acuerdo en que el tamaño es una buena manera de describir un árbol.
Hay cuatro vectores propios más. Es probable que todos sean mucho más pequeños que el primero porque el tamaño del árbol es abrumadoramente importante en comparación con el recuento y la inclinación del nido de pájaro. Entonces, para este hipotético, llamaremos a este “caso cerrado”. Hemos descubierto que la característica más importante de un árbol es el tamaño.
En la vida real, las personas hacen todo lo posible para nombrar estos vectores propios.
En la mayoría de los casos, el segundo valor propio más grande puede ser lo suficientemente grande como para merecer atención. Nombrar cualquiera o todos ellos puede ser difícil y a menudo es controvertido. El truco, por supuesto, es tener un buen conocimiento del tema de lo que está investigando. Sin eso, puede que no haya una manera fácil de documentar su “descubrimiento”.
Tengo grandes problemas con PCA. En mi trabajo se esperaba que pudiera explicar a los ingenieros, científicos y gerentes las características importantes de sus datos. Tanto ellos como yo estábamos preocupados por las relaciones entre las variables controlables y las respuestas a los cambios en esas variables. También nos preocupaba la variación incontrolada. Además de eso, mi trabajo era explicar qué significaba todo esto y hacer recomendaciones para el siguiente paso. A mediados de la década de 1960, realizamos un extenso estudio sobre el uso de PCA y descubrimos que tenía poco valor para nuestra situación. Necesitábamos modelos … relaciones. PCA no hace eso.
Ahora regrese hacia el principio y repita el puño varios pasos.
Coloque los datos en una tabla y ejecute un PCA en la matriz X’X. Las “respuestas” (y con esto quiero decir los valores propios y los vectores propios) ahora serán muy diferentes que cuando se ejecuta un PCA en la matriz de correlación. Esto se debe a que las medidas tienen unidades como pies y pulgadas.
Luego, solo por diversión, cambie los diámetros del tronco del árbol de pulgadas a pies
o cambie la altura a pulgadas. Ejecute otro PCA en esa tabla usando la matriz X’X. Esto producirá aún otro conjunto de valores propios y vectores propios. Ninguna de estas tres “respuestas” es mejor que las otras, pero prefiero la matriz de correlación. ¿Por qué? Si cambiamos las métricas
para decir, por ejemplo, el diámetro del tronco en pies, las “respuestas serán las mismas que con el diámetro en pulgadas. Con la matriz de correlación, las” respuestas “son invariables con cambios lineales en las métricas.
En una nota personal, me horrorizo cuando escucho a las personas decir que rutinariamente ejecutan PCA en datos con muchas variables. Las personas en las ciencias sociales, psicología, etc. parecen hacer mucho de eso. Deben ser mucho mejores que yo al nombrar vectores propios.
En una nota positiva, he usado PCA quizás cuatro veces en 40 años de práctica para determinar cuántas restricciones había en tablas de datos desconocidas. Hay otras formas de determinar esto, pero PCA fue tan bueno como cualquiera.
Espero que esto sea útil.