¿Qué es una explicación intuitiva para PCA?

(Entrada del tutorial extraída de: Annalyzing Life | Tutoriales y experimentos de análisis de datos para Layman )

El problema

Imagine que es un nutricionista que intenta explorar el contenido nutricional de los alimentos. ¿Cuál es la mejor manera de diferenciar los alimentos? ¿Por contenido de vitaminas? Niveles de proteínas? O tal vez una combinación de ambos?

Conocer las variables que mejor diferencian sus artículos tiene varios usos:

1. Visualización . El uso de las variables correctas para trazar elementos dará más información.

2. Descubriendo los racimos . Con buenas visualizaciones, se podrían identificar categorías o grupos ocultos. Entre los alimentos, por ejemplo, podemos identificar categorías amplias como carne y verduras, así como subcategorías como tipos de verduras.

La pregunta es, ¿cómo derivamos las variables que mejor diferencian los ítems?

Definición

El Análisis de componentes principales (PCA) es una técnica que encuentra variables subyacentes (conocidas como componentes principales ) que diferencian mejor sus puntos de datos. Los componentes principales son dimensiones a lo largo de las cuales sus puntos de datos están más dispersos:

Un componente principal puede expresarse mediante una o más variables existentes. Por ejemplo, podemos usar una sola variable, la vitamina C , para diferenciar los alimentos. Debido a que la vitamina C está presente en las verduras pero ausente en la carne, la gráfica resultante (abajo, a la izquierda) diferenciará las verduras de la carne, pero los artículos de carne se agruparán.

Para distribuir los productos cárnicos, podemos usar el contenido de grasa además de los niveles de vitamina C, ya que la grasa está presente en la carne pero ausente en las verduras. Sin embargo, los niveles de grasa y vitamina C se miden en diferentes unidades. Entonces, para combinar las dos variables, primero tenemos que normalizarlas , lo que significa cambiarlas a una escala estándar uniforme, lo que nos permitiría calcular una nueva variable: vitamina C menos grasa . La combinación de las dos variables ayuda a distribuir tanto los vegetales como los productos cárnicos.

La extensión puede mejorarse aún más agregando fibra, de la cual los artículos vegetales tienen niveles variables. Esta nueva variable – ( vitamina C + fibra) menos grasa – logra la mejor difusión de datos hasta el momento.

Mientras que en esta demostración intentamos derivar los componentes principales mediante prueba y error, PCA lo hace mediante cálculo sistemático.

Una ilustración

Usando datos del Departamento de Agricultura de los Estados Unidos, analizamos el contenido nutricional de una muestra aleatoria de alimentos. Se analizaron cuatro variables nutricionales: vitamina C, fibra, grasa y proteína. Para una comparación justa, los alimentos fueron crudos y medidos en 100 g.

Entre los alimentos, la presencia de ciertos nutrientes parece estar correlacionada. Esto se ilustra en el diagrama de barras a continuación con 4 elementos de ejemplo:

Específicamente, los niveles de grasa y proteína parecen moverse en la misma dirección entre sí, y en la dirección opuesta a los niveles de fibra y vitamina C. Para confirmar nuestra hipótesis, podemos verificar las correlaciones (tutorial: análisis de correlación) entre las variables de nutrición. Como se esperaba, hay grandes correlaciones positivas entre los niveles de grasa y proteína ( r = -0.56), así como entre los niveles de fibra y vitamina C ( r = 0.57).

Por lo tanto, en lugar de analizar las 4 variables de nutrición, podemos combinar variables altamente correlacionadas, dejando solo 2 dimensiones a considerar. Esta es la misma estrategia utilizada en PCA: examina las correlaciones entre las variables para reducir el número de dimensiones en el conjunto de datos. Es por eso que PCA se llama una técnica de reducción de dimensiones .

La aplicación de PCA a este conjunto de datos de alimentos da como resultado los siguientes componentes principales:

Los números representan los pesos utilizados en la combinación de variables para derivar componentes principales. Por ejemplo, para obtener el valor del componente principal superior (PC1) para un artículo alimenticio en particular, sumamos la cantidad de fibra y vitamina C que contiene, con un poco más de énfasis en la fibra, y luego de eso restamos la cantidad de grasa y Proteína que contiene, con proteína negada en mayor medida.

Observamos que el componente principal superior (PC1) resume nuestros hallazgos hasta ahora: ha emparejado la grasa con la proteína y la fibra con la vitamina C. También tiene en cuenta la relación inversa entre los pares. Por lo tanto, PC1 probablemente sirve para diferenciar la carne de las verduras. El segundo componente principal (PC2) es una combinación de dos variables nutricionales no relacionadas: la grasa y la vitamina C. Sirve para diferenciar aún más las subcategorías dentro de la carne (usando grasa) y las verduras (usando vitamina C).

El uso de los 2 principales componentes principales para trazar productos alimenticios resulta en la mejor distribución de datos hasta el momento:

Los artículos de carne (azul) tienen valores bajos de PC1 y, por lo tanto, se concentran a la izquierda de la parcela, en el lado opuesto de los artículos vegetales (naranja). Entre las carnes, los artículos de mariscos (azul oscuro) tienen un contenido de grasa más bajo, por lo que tienen valores de PC2 más bajos y están en la parte inferior de la parcela. Varios artículos vegetarianos no frondosos (naranja oscuro), que tienen un menor contenido de vitamina C, también tienen valores más bajos de PC2 y aparecen en la parte inferior.

Elección del número de componentes . Como los componentes principales se derivan de las variables existentes, la información disponible para diferenciar los puntos de datos está limitada por la cantidad de variables con las que comienza. Por lo tanto, el PCA anterior sobre los alimentos solo generó 4 componentes principales, correspondientes al número original de variables en el conjunto de datos.

Los componentes principales también están ordenados por su efectividad para diferenciar los puntos de datos, y el primer componente principal lo hace en el mayor grado. Para mantener los resultados simples y generalizables, solo se seleccionan los primeros componentes principales para su visualización y posterior análisis. El número de componentes principales a considerar está determinado por algo llamado diagrama de pantalla :

Un gráfico de pantalla muestra la efectividad decreciente de los componentes principales posteriores en la diferenciación de los puntos de datos. Una regla de oro es usar el número de componentes principales correspondientes a la ubicación de un pliegue. En la gráfica anterior, el pliegue se encuentra en el segundo componente. Esto significa que aunque tener tres o más componentes principales diferenciaría mejor los puntos de datos, esta información adicional puede no justificar la complejidad resultante de la solución. Como podemos ver en el diagrama de pantalla, los 2 principales componentes principales ya representan aproximadamente el 70% de la difusión de datos. El uso de menos componentes principales para explicar mejor la muestra de datos actual garantiza que los mismos componentes se puedan generalizar a otra muestra de datos.

Limitaciones

Maximizando la propagación . La suposición principal de PCA es que las dimensiones que revelan la mayor extensión entre los puntos de datos son las más útiles. Sin embargo, esto puede no ser cierto. Un ejemplo de contador popular es la tarea de contar panqueques dispuestos en una pila, con la masa del panqueque representando puntos de datos:

Para contar el número de panqueques, un panqueque se diferencia del siguiente a lo largo del eje vertical (es decir, la altura de la pila). Sin embargo, si la pila es corta, PCA identificaría erróneamente un eje horizontal (es decir, el diámetro de los panqueques) como un componente principal útil para nuestra tarea, ya que sería la dimensión a lo largo de la cual hay una mayor extensión.

Interpretación de componentes . Si podemos interpretar los componentes principales de la pila de panqueques, con etiquetas inteligibles como “altura de la pila” o “diámetro de panqueques”, podríamos seleccionar los componentes principales correctos para el análisis. Sin embargo, esto no suele ser el caso. Las interpretaciones de los componentes generados deben inferirse, y a veces podemos tener dificultades para explicar la combinación de variables en un componente principal.

No obstante, tener conocimientos previos de dominio podría ayudar. En nuestro ejemplo con alimentos, el conocimiento previo de las principales categorías de alimentos nos ayuda a comprender por qué las variables nutricionales se combinan de la forma en que se forman los componentes principales.

Componentes Ortogonales . Una desventaja importante de PCA es que los componentes principales que genera no deben solaparse en el espacio, también conocidos como componentes ortogonales . Esto significa que los componentes siempre se colocan a 90 grados entre sí. Sin embargo, esta suposición es restrictiva ya que las dimensiones informativas pueden no ser necesariamente ortogonales entre sí:

Para resolver esto, podemos usar una técnica alternativa llamada Análisis de componentes independientes (ICA).

ICA permite que sus componentes se superpongan en el espacio , por lo que no es necesario que sean ortogonales. En cambio, ICA prohíbe que sus componentes se superpongan en la información que contienen, con el objetivo de reducir la información mutua compartida entre los componentes. Por lo tanto, los componentes de ICA son independientes , y cada componente revela información única sobre el conjunto de datos.

Hasta ahora, la información ha sido representada por el grado de difusión de datos, con dimensiones a lo largo de las cuales los datos están más dispersos y son más informativos. Esto puede no ser siempre cierto, como se ve en el ejemplo de panqueque. Sin embargo, ICA puede superar esto teniendo en cuenta otras fuentes de información además de la difusión de datos.

Por lo tanto, ICA puede ser una técnica de respaldo para usar si sospechamos que los componentes deben derivarse en base a información más allá de la difusión de datos, o que los componentes pueden no ser ortogonales.

Conclusión

PCA es una técnica clásica para derivar variables subyacentes, reduciendo el número de dimensiones que debemos considerar en un conjunto de datos. En nuestro ejemplo anterior, pudimos visualizar el conjunto de datos de alimentos en un gráfico bidimensional, aunque originalmente tenía 4 variables. Sin embargo, PCA hace varias suposiciones, como confiar en la difusión de datos y la ortogonalidad para derivar componentes. Por otro lado, ICA no está sujeto a estos supuestos. Por lo tanto, en caso de duda, uno podría considerar ejecutar un ICA para verificar y complementar los resultados de un PCA.

Para más tutoriales legos, visite: Annalyzing Life | Tutoriales y experimentos de análisis de datos para Layman

fuente: dar sentido al análisis de componentes principales, vectores propios y valores propios

Imagine una gran cena familiar, donde todos comienzan a preguntarle sobre PCA. Primero se lo explicas a tu bisabuela; entonces a ti abuela; entonces a tu madre; entonces a tu esposa; finalmente, a su hija (que es matemática). Cada vez que la siguiente persona es menos laica. Así es como podría ser la conversación.

Bisabuela: Escuché que estás estudiando “Pee-See-Ay”. Me pregunto qué es eso …

Usted: Ah, es solo un método para resumir algunos datos. Mira, tenemos algunas botellas de vino parados aquí en la mesa. Podemos describir cada vino por su color, por lo fuerte que es, por su antigüedad, etc. (vea esta visualización muy agradable de las propiedades del vino tomada de aquí). Podemos componer una lista completa de diferentes características de cada vino en nuestra bodega. Pero muchos de ellos medirán propiedades relacionadas y, por lo tanto, serán redundantes. Si es así, ¡deberíamos poder resumir cada vino con menos características! Esto es lo que hace PCA.

Abuela: ¡Esto es interesante! Entonces, ¿esta cosa de PCA verifica qué características son redundantes y las descarta?

Tu: Excelente pregunta, abuelita! No, PCA no está seleccionando algunas características y descartando las otras. En cambio, construye algunas características nuevas que resultan resumir bien nuestra lista de vinos. Por supuesto, estas nuevas características se construyen utilizando las antiguas; por ejemplo, una nueva característica podría calcularse como la edad del vino menos el nivel de acidez del vino o alguna otra combinación como esa (las llamamos combinaciones lineales ).

De hecho, PCA encuentra las mejores características posibles, las que resumen la lista de vinos de la mejor manera posible (entre todas las combinaciones lineales concebibles). Por eso es tan útil.

Madre: Hmmm, esto ciertamente suena bien, pero no estoy segura de entenderlo. ¿Qué quiere decir realmente cuando dice que estas nuevas características de PCA “resumen” la lista de vinos?

Usted: Creo que puedo dar dos respuestas diferentes a esta pregunta. La primera respuesta es que está buscando algunas propiedades (características) del vino que difieren mucho entre los vinos. De hecho, imagine que se le ocurre una propiedad que es igual para la mayoría de los vinos. Esto no sería muy útil, ¿no? Los vinos son muy diferentes, pero su nueva propiedad hace que todos se vean iguales. Esto sin duda sería un mal resumen. En cambio, PCA busca propiedades que muestren la mayor variación posible entre los vinos.

La segunda respuesta es que busca las propiedades que le permitirían predecir o “reconstruir” las características originales del vino. Nuevamente, imagine que se le ocurre una propiedad que no tiene relación con las características originales; si usa solo esta nueva propiedad, ¡no hay forma de reconstruir las originales! Esto, nuevamente, sería un mal resumen. Entonces PCA busca propiedades que permitan reconstruir las características originales lo mejor posible.

Sorprendentemente, resulta que estos dos objetivos son equivalentes y, por lo tanto, PCA puede matar dos pájaros de un tiro.

Esposa: Pero cariño, ¡estos dos “objetivos” de PCA suenan tan diferentes! ¿Por qué serían equivalentes?

Tu: Hmmm. Quizás debería hacer un pequeño dibujo (toma una servilleta y comienza a garabatear) . Vamos a elegir dos características del vino, tal vez la oscuridad del vino y el contenido de alcohol: no sé si están correlacionados, pero imaginemos que lo están. Así es como podría verse un diagrama de dispersión de diferentes vinos:

Cada punto en esta “nube de vino” muestra un vino en particular. Usted ve que las dos propiedades (

x [matemáticas] x [/ matemáticas] y

y [matemáticas] y [/ matemáticas] en esta figura) están correlacionadas. Se puede construir una nueva propiedad dibujando una línea a través del centro de esta nube de vino y proyectando todos los puntos en esta línea. Esta nueva propiedad será dada por una combinación lineal.

w1x + w2y [matemáticas] w1x + w2y [/ matemáticas], donde cada línea corresponde a algunos valores particulares de

w1 [matemáticas] w1 [/ matemáticas] y

w2 [matemáticas] w2 [/ matemáticas].

Ahora mire aquí con mucho cuidado: así es como se ven estas proyecciones para diferentes líneas (los puntos rojos son proyecciones de los puntos azules):

Como dije antes, PCA encontrará la “mejor” línea de acuerdo con dos criterios diferentes de cuál es la “mejor”. Primero, la variación de valores a lo largo de esta línea debe ser máxima. Presta atención a cómo cambia la “extensión” (la llamamos “varianza”) de los puntos rojos mientras la línea gira; puedes ver cuando alcanza el maximo? Segundo, si reconstruimos las dos características originales (posición de un punto azul) a partir de la nueva (posición de un punto rojo), el error de reconstrucción estará dado por la longitud de la línea roja de conexión. Observe cómo cambia la longitud de estas líneas rojas mientras la línea gira; ¿Puedes ver cuando la longitud total alcanza el mínimo?

Si observa esta animación durante algún tiempo, notará que “la varianza máxima” y “el error mínimo” se alcanzan al mismo tiempo, es decir, cuando la línea apunta a las marcas magenta que marqué a ambos lados de la nube de vino . Esta línea corresponde a la nueva propiedad del vino que será construida por PCA.

Por cierto, PCA significa “análisis de componentes principales” y esta nueva propiedad se llama “primer componente principal”. Y en lugar de decir “propiedad” o “característica”, generalmente decimos “característica” o “variable”.

Hija: ¡Muy bien papá! Esto me recuerda el teorema de Pitágoras, ¿no te parece? Pero escuché que la PCA está relacionada de alguna manera con los vectores propios y los valores propios; ¿Dónde están en esta foto?

Usted: observación brillante. Matemáticamente, la extensión de los puntos rojos se mide como la distancia cuadrada promedio desde el centro de la nube de vino a cada punto rojo; como saben, se llama la varianza . Por otro lado, el error de reconstrucción total se mide como la longitud cuadrática promedio de las líneas rojas correspondientes. Pero como el ángulo entre las líneas rojas y la línea negra es siempre

90∘ [matemática] 90∘ [/ matemática], la suma de estas dos cantidades es igual a la distancia cuadrada promedio entre el centro de la nube de vino y cada punto azul; Este es precisamente el teorema de Pitágoras. Por supuesto, esta distancia promedio no depende de la orientación de la línea negra, por lo que cuanto mayor sea la varianza, menor será el error (porque su suma es constante). Este argumento ondulado a mano se puede hacer preciso (ver aquí).

Por cierto, puedes imaginar que la línea negra es una barra sólida y cada línea roja es un resorte. La energía del resorte es proporcional a su longitud al cuadrado (esto se conoce en física como la ley de Hooke), por lo que la varilla se orientará para minimizar la suma de estas distancias al cuadrado. Hice una simulación de cómo se verá, en presencia de una fricción viscosa:

Con respecto a vectores propios y valores propios. Debe saber qué es una matriz de covarianza ; en mi ejemplo es un

Matriz 2 × 2 [matemática] 2 × 2 [/ matemática] dada por

(1.070.630.630.64). [Matemáticas] (1.070.630.630.64). [/ Matemáticas]

Lo que esto significa es que la varianza de la

La variable x [math] x [/ math] es

1.07 [matemáticas] 1.07 [/ matemáticas], la varianza de la

La variable y [math] y [/ math] es

0.64 [matemática] 0.64 [/ matemática], y la covarianza entre ellos es

0.63 [matemática] 0.63 [/ matemática]. Como es una matriz simétrica cuadrada, se puede diagonalizar eligiendo un nuevo sistema de coordenadas ortogonales, dado por sus vectores propios (por cierto, esto se llama teorema espectral ); los valores propios correspondientes se ubicarán en la diagonal. En este nuevo sistema de coordenadas, la matriz de covarianza es diagonal y se ve así:

(1.52000.19), [matemáticas] (1.52000.19), [/ matemáticas]

lo que significa que la correlación entre puntos ahora es cero. Queda claro que la varianza de cualquier proyección estará dada por un promedio ponderado de los valores propios (aquí solo esbozo la intuición). En consecuencia, la máxima varianza posible (

1.52 [matemática] 1.52 [/ matemática]) se logrará si simplemente tomamos la proyección en el primer eje de coordenadas. Se deduce que la dirección del primer componente principal viene dada por el primer vector propio de la matriz de covarianza. (Más detalles aquí.)

También puede ver esto en la figura giratoria: hay una línea gris allí ortogonal a la negra; juntos forman un marco de coordenadas giratorio. Intente notar cuándo los puntos azules no están correlacionados en este marco giratorio. La respuesta, una vez más, es que sucede precisamente cuando la línea negra apunta a las marcas magenta. Ahora puedo decirte cómo los encontré: marcan la dirección del primer vector propio de la matriz de covarianza, que en este caso es igual a

(0.81,0.58) [matemáticas] (0.81,0.58) [/ matemáticas].

fuente: dar sentido al análisis de componentes principales, vectores propios y valores propios

Esta es solo la versión gráfica de la respuesta del usuario de Quora:

Para conjuntos de datos bidimensionales (es decir, dos variables de características), el análisis de componentes principales (PCA) primero encuentra la relación entre las dos características. La siguiente figura muestra esta relación para dos muestras separadas de datos al trazar cada variable en un eje separado. Para ilustrar el comportamiento de PCA con datos imperfectos, el ejemplo en el Panel A es distribuido gaussiano, mientras que el Panel B no es gaussiano.

Como los datos son 2D, queremos dibujar una sola elipse 2D que mejor se ajuste a todos los datos. El proceso de “ajustar” esta elipse se llama rotación de datos en PCA. Todos los datos se giran en el espacio para que su masa se ajuste a lo largo de los dos ejes de una elipse:

Tenga en cuenta que rotamos los datos en lugar de la elipse porque queremos poder describir los puntos de datos con respecto a sus nuevos ejes. Los datos a lo largo del eje mayor contribuyen al primer componente principal y los datos a lo largo del eje menor contribuyen al segundo componente principal (que generalmente no nos interesa si el objetivo es la reducción de la dimensionalidad). La longitud de cada eje refleja la varianza total capturada por ese componente, también conocido como los valores propios de PCA. El vector propio del primer componente principal es, por lo tanto, la representación 1D de la ubicación de los puntos de datos a lo largo del eje más grande.

Esta idea básica se puede llevar a cabo con datos en espacio N-dimensional. Por ejemplo, cuando los datos son 3D, se utiliza un elipsoide para capturar la nube de datos. Como hay tres ejes en un elipsoide, habrá tres componentes principales.

Digamos que tienes 30 tipos diferentes de cervezas y quieres ver cómo están agrupadas.

Para cada cerveza, comenzará a recopilar descriptores, por ejemplo, cuánto cuesta, cuánto azúcar, cuántas calorías, una puntuación para el sabor y muchos otros.

Ahora comienzas a construir una matriz:
Precio, Azúcar, Calorías, …
Cerveza1
Cerveza2
Cerveza3
… ..

El siguiente paso es ejecutar el PCA. Antes de ejecutar realmente el PCA, debe realizar un preprocesamiento (es decir, autoescalar su matriz).

¿Qué hace la PCA? Supongamos que solo tiene 3 variables, por lo que está en un espacio 3D (fácil de imaginar :)). Ahora, de todas las líneas posibles que pueden cruzar este espacio, elegirá el primer componente principal, que es la línea en la dirección con la mayor varianza. Si esto no está claro, mire esta imagen: la línea más larga es el primer componente principal. Para elegir el segundo componente principal, debe elegir la línea con la varianza más alta que también es ortogonal a la primera. En la imagen a continuación, debido a que es un espacio 2D, solo hay un posible segundo componente principal.
Aún puede preguntarse qué significa matemáticamente y cómo se vincula esto con la matriz original. Para cada columna de su matriz, dos parámetros son los más importantes: la varianza y la media. Suponga que una de sus variables (digamos que el sabor) es idéntica en todas las cervezas, luego su varianza es cero: como resultado, esta variable no contribuye a explicar ninguno de los componentes principales.

La media también es importante porque, como se puede ver en la imagen a continuación, el componente principal pasa a través de la media multidimensional.

Aún puede preguntarse qué va a hacer con los componentes principales …

Una de las partes más útiles de PCA es mirar sus objetos en el espacio del componente principal. Entonces, su próximo paso es mirar las cervezas en el espacio de PCA. Para simplificar, mire PC1 vs PC2. Las cervezas pueden agruparse naturalmente, por ejemplo, por país. Es posible que pueda ver que las cervezas en el cuadrante superior izquierdo son de Alemania, mientras que las cervezas en el cuadrante inferior izquierdo son del Reino Unido.

¿Cómo es esto útil? Ahora descubra qué variables explican la mayor parte de PC1 (cualquier programa para ejecutar PCA le dirá eso). Quizás azúcar y calorías. Por lo tanto, puede resultar que las cervezas con bajo contenido de azúcar y bajas calorías se formen predominantemente en Alemania, mientras que las que tienen más azúcar y calorías son del Reino Unido.

PCA lo ayuda a desconvolucionar sus datos, a dejar de lado las variables con baja varianza y a cuidar la colinealidad (el azúcar y las calorías pueden significar lo mismo, por lo que terminan explicando el mismo componente principal … porque van en la misma dirección …) .

En el espacio del componente principal, debería poder ver sus objetos agrupados de manera significativa. Serás tú quien haga la conexión con algo nuevo, quizás inesperado. En el ejemplo de la cerveza, mencioné que las cervezas pueden terminar agrupadas según el país. Puede tener varias otras hipótesis que ahora puede verificar.

Puede consultar un ejemplo muy visual en la aplicación en el enlace: PCA aplicado en imágenes: allí puede ver intuitivamente el proceso, el significado y el poder de explicar los datos con solo unos pocos componentes principales (ciudad de Lisboa adjunta, representada por solo 26 PC) !).

Registrarse | LinkedIn

Como pides una explicación intuitiva, no entraré en detalles matemáticos en absoluto.

Considere el plano 2D XY.

En aras de la intuición, consideremos la varianza como la difusión de los datos: la distancia entre los dos puntos más lejanos.

Suposición:
Por lo general, se cree que si la varianza de los datos es grande, ofrece más información que los datos que tienen una pequeña varianza. (Esto puede o no ser cierto). Este es el supuesto que PCA pretende explotar.

Te doy 4 puntos: {(1,1), (2,2), (3,3), (4,4)}
(todos se encuentran en la línea X = Y)

¿Cuál es la varianza en el eje X?
Varianza (X) = 4-1 = 3

¿Cuál es la varianza en el eje Y?
Varianza (Y) = 4-1 = 3

¿Podemos obtener nuevos datos con mayor varianza de alguna manera?
Gire su sistema XY 45 grados en sentido antihorario. ¿Lo que pasa? La línea X = Y ahora se ha convertido en el eje X (nuevo). Y, X = -Y es ahora el eje Y (nuevo). Calculemos la varianza nuevamente (en forma de distancia)

Varianza (X (nuevo)) = distancia ((4,4), (1,1)) = sqrt (18) = 4.24
Varianza (Y (nuevo)) = requiere algunos cálculos.

¿Qué obtuvimos al hacer esta rotación?
Datos originales: tenía la varianza más alta en cualquier eje como 3. Esta rotación nos dio una varianza de 4.24

Esa fue la explicación intuitiva de lo que hace PCA. Solo para mayor aclaración

Valores propios = varianza de los datos a lo largo de un eje particular en el nuevo sistema de coordenadas. En el ejemplo anterior, Valor propio (X (nuevo)) = 4.24.
Vectores propios = los vectores que representan el nuevo sistema de coordenadas. En el ejemplo anterior, el vector [1,1] sería un vector propio para X (nuevo) y un vector propio [1, -1] para Y (nuevo). Como son solo direcciones, los solucionadores generalmente nos dan vectores unitarios.
Obtener datos transformados
Una vez que tenga los vectores propios, un producto de puntos del vector propio con el punto original le dará el nuevo punto en el nuevo sistema de coordenadas.
Diagnóstico: esta es la parte en la que equiparas la covarianza con lambda * I. Básicamente, se trata de encontrar un vector propio, de modo que todos los puntos se encuentren en la misma línea y, por lo tanto, solo tengan elementos de varianza, y los términos de covarianza serían cero.

Si necesita más explicaciones sobre las partes matemáticas, hágamelo saber en los comentarios.

Imagínese en un escenario 2D, tiene un conjunto de datos sin etiquetar. Desea proyectar sus datos en una línea para que sus datos se reduzcan a 1D. La pregunta es de un número infinito de candidatos, qué línea elegir. Encierra en un círculo su conjunto de datos con una elipse y determina que el eje largo es una buena opción, ya que maximiza la difusión de los datos proyectados.

A riesgo de ser demasiado simple, PCA es un método para descubrir cómo representar una colección compleja de datos de una manera menos compleja. La esperanza es que si puede simplificar mientras aún conserva un grado razonable de integridad descriptiva con respecto a los datos originales, puede hacer algunos tipos de inferencias sobre los datos complejos al observar la representación simple.

Encontré que la respuesta aquí es igualmente buena para entender PCA intuitivamente

Análisis de componentes principales 4 Dummies: vectores propios, valores propios y reducción de dimensiones

Las diapositivas a continuación presentan cómo funciona PCA. Traté de hacerlos muy fáciles de entender. Si los encontraste interesantes, puede que te guste la introducción completa que hice sobre Machine Learning aquí. ¡Espero que te guste!

Algo relevante (puede darte una buena intuición):
Respuesta del usuario de Quora a ¿Cuál es la diferencia entre el análisis de componentes principales (PCA) y la selección de características en el aprendizaje automático? ¿Es PCA un medio de selección de características?

Supongamos que tiene un gran conjunto de datos y que tiene que jugar Veinte preguntas para encontrar el “elemento correcto”. No querrá hacer una pregunta en la que la respuesta casi siempre sea “sí”, porque eso casi no reduce las cosas la mayor parte del tiempo. Usted * realmente * no quiere hacer una serie de preguntas en las que si una respuesta es “sí”, las otras respuestas también serán “sí”, porque eso es prácticamente como hacer una sola pregunta. Entonces, lo que quiere hacer es crear una técnica que le permita hacer una serie de preguntas en las que prácticamente no tenga idea de cuál será la respuesta a cada pregunta.

La mayoría de los conjuntos de datos tendrán variables que no son binarias, pero se aplica la misma idea: una serie de formas máximas “poco informativas” de ver los datos le dice cuáles son las diferencias interesantes en este conjunto, le brinda la mayor información en la técnica sentido. Si desea resumir sus datos en la menor cantidad de dimensiones posible y tal vez ajustarlo todo en un gráfico, esto le indicará en qué dimensiones debe centrarse.

Si esto ayuda: imagine todos sus puntos de datos flotando en el espacio. PCA le dice cómo rotar el conjunto de datos para verlo desde el ángulo más informativo.

Imagine que cada predictor es una cookie. Alise las cookies y combine los resultados de modo que haya una cookie gigante con trozos de diferentes tipos de cookies, luego una cookie más pequeña con otro subconjunto de tipos de cookies … Vea aquí para más detalles y visualización: https://www.slideshare.net/ Colle …

El video proporciona una explicación intuitiva de PCA a través de gráficos.

Básicamente piense en una forma de cigarro de puntos de datos orientados aleatoriamente en 3 dimensiones. Es un cilindro de puntos que representa la distribución de los valores para 3 variables en un conjunto de datos. Ahora, si cambia los ejes para que el “nuevo” eje x sea paralelo a la longitud del cigarro y los ejes y y z sean paralelos al ancho y la altura del cigarro, estas 3 dimensiones son análogas a la primera 3 componentes principales del conjunto de datos. La longitud más larga o más larga del cigarro es el primer componente principal y el vector Eigen para este componente son los componentes x, y, y z reales de este “nuevo” eje x en términos de los ejes originales. Lo mismo para los nuevos ejes y y z que son paralelos al ancho y la altura del cigarro de datos.

Eche un vistazo aquí en este blog Análisis de componentes principales (PCA) Parte – 1, creo que el autor hizo un gran trabajo al explicar PCA en profundidad,

realmente dijo qué demonios es PCA y
por qué y cómo se usa en el aprendizaje automático
no solo cómo implementar un revestimiento.