¿Cuál es una forma intuitiva de explicar los resultados de la PCA?

Tenga en cuenta que PCA es una forma de resumir / describir datos. Es una forma de reducir las dimensiones numéricas de un conjunto multivariable. Explicar lo que su análisis significa para los demás puede ser difícil.

Aquí hay un ejemplo hipotético. Suponga que tiene una colección de datos de mediciones de árboles de una cierta variedad. Las propiedades que se midieron y registraron son:
1. Diámetro de cada árbol en pulgadas, medido 4.5 pies sobre el suelo.
2. Altura de cada árbol en pies.
3. Diámetro de la “extensión” del árbol medido en pies como sombra
lanzado por el árbol al mediodía.
4. Número de nidos de pájaros en cada árbol.
5. El ángulo de inclinación de la tierra donde se planta cada árbol.
Estos datos están en una tabla, con cinco columnas en la parte superior para las variables y N filas, una fila por árbol.

Ahora, ¿qué se puede aprender de estos datos?
Comencemos por preguntar cuál es la característica más importante de los árboles.

Supongamos que ejecutamos un PCA en la matriz de correlación derivada de nuestros datos.
No es de extrañar … La altura y el diámetro están fuertemente correlacionados. El diámetro de la sombra se correlaciona fuertemente con la altura y el diámetro del tronco del árbol. Ejecutemos un PCA en la matriz de correlación. Probablemente encontraremos que el valor propio más grande (característica más importante de los árboles) es mucho más grande que los otros cuatro valores propios. El vector propio. para ese mayor valor propio, lo más probable es que tenga tres “pesos” grandes (mi terminología) y dos pesos pequeños. Los pesos más grandes serán para el diámetro del tronco, la altura y el diámetro del molde de sombra. Los pesos para el próximo recuento de aves e inclinación del suelo probablemente serán muy pequeños en relación con los tres más grandes. El “peso” tendrá todos los mismos signos.
Eso es porque los coeficientes de correlación entre aquellos
Tres factores importantes son todos del mismo signo, positivo.
Este vector propio ahora es una representación de tres variables de los datos de los árboles.
Es decir, hay tres factores importantes que describen un árbol. Al pensarlo, nombremos ese vector propio “tamaño del árbol” o tamaño del árbol.
Esto es fácil porque todos estaríamos de acuerdo en que el tamaño es una buena manera de describir un árbol.

Hay cuatro vectores propios más. Es probable que todos sean mucho más pequeños que el primero porque el tamaño del árbol es abrumadoramente importante en comparación con el recuento y la inclinación del nido de pájaro. Entonces, para este hipotético, llamaremos a este “caso cerrado”. Hemos descubierto que la característica más importante de un árbol es el tamaño.

En la vida real, las personas hacen todo lo posible para nombrar estos vectores propios.
En la mayoría de los casos, el segundo valor propio más grande puede ser lo suficientemente grande como para merecer atención. Nombrar cualquiera o todos ellos puede ser difícil y a menudo es controvertido. El truco, por supuesto, es tener un buen conocimiento del tema de lo que está investigando. Sin eso, puede que no haya una manera fácil de documentar su “descubrimiento”.

Tengo grandes problemas con PCA. En mi trabajo se esperaba que pudiera explicar a los ingenieros, científicos y gerentes las características importantes de sus datos. Tanto ellos como yo estábamos preocupados por las relaciones entre las variables controlables y las respuestas a los cambios en esas variables. También nos preocupaba la variación incontrolada. Además de eso, mi trabajo era explicar qué significaba todo esto y hacer recomendaciones para el siguiente paso. A mediados de la década de 1960, realizamos un extenso estudio sobre el uso de PCA y descubrimos que tenía poco valor para nuestra situación. Necesitábamos modelos … relaciones. PCA no hace eso.

Ahora regrese hacia el principio y repita el puño varios pasos.
Coloque los datos en una tabla y ejecute un PCA en la matriz X’X. Las “respuestas” (y con esto quiero decir los valores propios y los vectores propios) ahora serán muy diferentes que cuando se ejecuta un PCA en la matriz de correlación. Esto se debe a que las medidas tienen unidades como pies y pulgadas.
Luego, solo por diversión, cambie los diámetros del tronco del árbol de pulgadas a pies
o cambie la altura a pulgadas. Ejecute otro PCA en esa tabla usando la matriz X’X. Esto producirá aún otro conjunto de valores propios y vectores propios. Ninguna de estas tres “respuestas” es mejor que las otras, pero prefiero la matriz de correlación. ¿Por qué? Si cambiamos las métricas
para decir, por ejemplo, el diámetro del tronco en pies, las “respuestas serán las mismas que con el diámetro en pulgadas. Con la matriz de correlación, las” respuestas “son invariables con cambios lineales en las métricas.

En una nota personal, me horrorizo ​​cuando escucho a las personas decir que rutinariamente ejecutan PCA en datos con muchas variables. Las personas en las ciencias sociales, psicología, etc. parecen hacer mucho de eso. Deben ser mucho mejores que yo al nombrar vectores propios.

En una nota positiva, he usado PCA quizás cuatro veces en 40 años de práctica para determinar cuántas restricciones había en tablas de datos desconocidas. Hay otras formas de determinar esto, pero PCA fue tan bueno como cualquiera.

Espero que esto sea útil.

Supongo que cuando dice gráficos de resultados de PCA, se refiere al gráfico de Scree y al gráfico de Score.

1) Parcela de Scree
Dado que el objetivo principal con PCA es la reducción de dimensiones hasta que obtenga una cantidad específica de información que se captura en el conjunto de datos reducido. Esto es evidente por el porcentaje de variación que explica cada una de las PC. Scree plot es una forma exploratoria de tener una idea aproximada de la cantidad de PC a considerar en el análisis.

El diagrama de pantalla es un diagrama lineal de valores propios indexados en un orden descendente de magnitud. Lo primero que debe buscar es un codo / curva en el diagrama lineal después del cual el gráfico se vuelve casi paralelo al eje índice (eje x). Esto implica que las PC con índices más allá del punto del codo no agregan información significativa a nuestro conjunto de datos reducido y, por lo tanto, pueden omitirse.

2) Gráfico de puntuación

El Gráfico de puntaje básicamente es un gráfico de puntajes de PC obtenidos usando la primera PC contra la segunda PC. El diagrama nuevamente sirve como una herramienta exploratoria para visualizar una clasificación de clase evidente en su conjunto de datos y buscar los posibles valores atípicos. Por ejemplo, si considera las características florales a saber. longitud del sépalo, ancho del pétalo, longitud del pétalo, etc. (el conjunto de datos de Iris, se puede cargar directamente en R) para tres especies diferentes y obtener un gráfico de puntuación, vería tres grupos distintos. También puede verificar las posibles clasificaciones erróneas. Esta idea del gráfico de puntuación se usa varias veces en los problemas de agrupación de minería de datos para tener una idea inicial de los números de agrupación para la agrupación de k-medias.

¡Espero que esto ayude!

More Interesting

¿Hay casos en que las ideas del aprendizaje profundo hayan sido útiles para problemas de datos pequeños?

¿Qué sucede si hacemos que cada unidad de filtro o núcleo en una capa CNN dentro de una red neuronal profunda tenga diferentes tamaños de ventana pero el mismo número de parámetros de peso (lo que resulta en granulado grueso)? ¿Podría conducir a un efecto contextual?

¿Cuáles son los temas candentes del aprendizaje profundo para el análisis de imágenes médicas en 2017?

¿Cuáles son algunos chatbots de IA de código abierto que usan aprendizaje automático?

¿Cuál es la explicación simple del modelo de Ising y Potts?

¿Cómo afectaría la homo / heteroscedasticidad al análisis de regresión?

¿Se recomienda que un desarrollador Java experimentado aprenda y pase al aprendizaje automático? ¿Qué tan difícil / fácil es?

¿Cómo se puede mejorar Google News?

¿Cuáles podrían ser las características posibles para detectar fraude en transacciones en cajeros automáticos?

¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?

¿Preferiría que una novela sobre la era medieval fuera históricamente precisa y llena de conceptos verificables o fácilmente legible pero de hecho escasa?

Aprendizaje automático: ¿qué significa 'Los bosques aleatorios requieren casi ninguna preparación de entrada'?

¿Qué dice el profesor Yaser Abu-Mostafa en su conferencia sobre la viabilidad del aprendizaje?

¿Cuál es la diferencia entre la regresión logística y Naive Bayes?

¿Dónde usa Quora el aprendizaje automático?