¿Qué es el análisis de componentes principales en términos de super laicos?

(Entrada del tutorial extraída de: Annalyzing Life | Tutoriales y experimentos de análisis de datos para Layman )

El problema

Imagine que es un nutricionista que intenta explorar el contenido nutricional de los alimentos. ¿Cuál es la mejor manera de diferenciar los alimentos? ¿Por contenido de vitaminas? Niveles de proteínas? O tal vez una combinación de ambos?

Conocer las variables que mejor diferencian sus artículos tiene varios usos:

1. Visualización . El uso de las variables correctas para trazar elementos dará más información.

2. Descubriendo los racimos . Con buenas visualizaciones, se podrían identificar categorías o grupos ocultos. Entre los alimentos, por ejemplo, podemos identificar categorías amplias como carne y verduras, así como subcategorías como tipos de verduras.

La pregunta es, ¿cómo derivamos las variables que mejor diferencian los ítems?

Definición

El Análisis de componentes principales (PCA) es una técnica que encuentra variables subyacentes (conocidas como componentes principales ) que diferencian mejor sus puntos de datos. Los componentes principales son dimensiones a lo largo de las cuales sus puntos de datos están más dispersos:

Un componente principal puede expresarse mediante una o más variables existentes. Por ejemplo, podemos usar una sola variable, la vitamina C , para diferenciar los alimentos. Debido a que la vitamina C está presente en las verduras pero ausente en la carne, la gráfica resultante (abajo, a la izquierda) diferenciará las verduras de la carne, pero los productos cárnicos se agruparán.

Para distribuir los productos cárnicos, podemos usar el contenido de grasa además de los niveles de vitamina C, ya que la grasa está presente en la carne pero ausente en las verduras. Sin embargo, los niveles de grasa y vitamina C se miden en diferentes unidades. Entonces, para combinar las dos variables, primero tenemos que normalizarlas , lo que significa cambiarlas a una escala estándar uniforme, lo que nos permitiría calcular una nueva variable: vitamina C menos grasa . La combinación de las dos variables ayuda a distribuir tanto los vegetales como los productos cárnicos.

La extensión puede mejorarse aún más agregando fibra, de la cual los artículos vegetales tienen niveles variables. Esta nueva variable – ( vitamina C + fibra) menos grasa – logra la mejor difusión de datos hasta el momento.

Mientras que en esta demostración intentamos derivar los componentes principales mediante prueba y error, PCA lo hace mediante cálculo sistemático.

Una ilustración

Usando datos del Departamento de Agricultura de los Estados Unidos, analizamos el contenido nutricional de una muestra aleatoria de alimentos. Se analizaron cuatro variables nutricionales: vitamina C, fibra, grasa y proteína. Para una comparación justa, los alimentos fueron crudos y medidos en 100 g.

Entre los alimentos, la presencia de ciertos nutrientes parece estar correlacionada. Esto se ilustra en el diagrama de barras a continuación con 4 elementos de ejemplo:

Específicamente, los niveles de grasa y proteína parecen moverse en la misma dirección entre sí, y en la dirección opuesta a los niveles de fibra y vitamina C. Para confirmar nuestra hipótesis, podemos verificar las correlaciones (tutorial: análisis de correlación) entre las variables de nutrición. Como se esperaba, hay grandes correlaciones positivas entre los niveles de grasa y proteína ( r = -0.56), así como entre los niveles de fibra y vitamina C ( r = 0.57).

Por lo tanto, en lugar de analizar las 4 variables de nutrición, podemos combinar variables altamente correlacionadas, dejando solo 2 dimensiones a considerar. Esta es la misma estrategia utilizada en PCA: examina las correlaciones entre las variables para reducir el número de dimensiones en el conjunto de datos. Es por eso que PCA se llama una técnica de reducción de dimensiones .

La aplicación de PCA a este conjunto de datos de alimentos da como resultado los siguientes componentes principales:

Los números representan los pesos utilizados en la combinación de variables para derivar componentes principales. Por ejemplo, para obtener el valor del componente principal superior (PC1) para un artículo alimenticio en particular, sumamos la cantidad de fibra y vitamina C que contiene, con un poco más de énfasis en la fibra, y luego de eso restamos la cantidad de grasa y Proteína que contiene, con proteína negada en mayor medida.

Observamos que el componente principal superior (PC1) resume nuestros hallazgos hasta ahora: ha emparejado la grasa con la proteína y la fibra con la vitamina C. También tiene en cuenta la relación inversa entre los pares. Por lo tanto, PC1 probablemente sirve para diferenciar la carne de las verduras. El segundo componente principal (PC2) es una combinación de dos variables nutricionales no relacionadas: la grasa y la vitamina C. Sirve para diferenciar aún más las subcategorías dentro de la carne (usando grasa) y las verduras (usando vitamina C).

El uso de los 2 principales componentes principales para trazar productos alimenticios resulta en la mejor distribución de datos hasta el momento:

Los productos cárnicos (azul) tienen valores bajos de PC1 y, por lo tanto, se concentran a la izquierda de la parcela, en el lado opuesto de los productos vegetales (naranja). Entre las carnes, los artículos de mariscos (azul oscuro) tienen un contenido de grasa más bajo, por lo que tienen valores de PC2 más bajos y están en la parte inferior de la parcela. Varios artículos vegetarianos no frondosos (naranja oscuro), que tienen un menor contenido de vitamina C, también tienen valores más bajos de PC2 y aparecen en la parte inferior.

Elección del número de componentes . Como los componentes principales se derivan de las variables existentes, la información disponible para diferenciar los puntos de datos está limitada por la cantidad de variables con las que comienza. Por lo tanto, el PCA anterior sobre los alimentos solo generó 4 componentes principales, correspondientes al número original de variables en el conjunto de datos.

Los componentes principales también están ordenados por su efectividad para diferenciar los puntos de datos, y el primer componente principal lo hace en el mayor grado. Para mantener los resultados simples y generalizables, solo se seleccionan los primeros componentes principales para su visualización y posterior análisis. El número de componentes principales a considerar está determinado por algo llamado diagrama de pantalla :

Un gráfico de pantalla muestra la efectividad decreciente de los componentes principales posteriores en la diferenciación de los puntos de datos. Una regla de oro es usar el número de componentes principales correspondientes a la ubicación de un pliegue. En la gráfica anterior, el pliegue se encuentra en el segundo componente. Esto significa que aunque tener tres o más componentes principales diferenciaría mejor los puntos de datos, esta información adicional puede no justificar la complejidad resultante de la solución. Como podemos ver en el diagrama de pantalla, los 2 principales componentes principales ya representan aproximadamente el 70% de la difusión de datos. El uso de menos componentes principales para explicar mejor la muestra de datos actual garantiza que los mismos componentes se puedan generalizar a otra muestra de datos.

Limitaciones

Maximizando la propagación . La suposición principal de PCA es que las dimensiones que revelan la mayor extensión entre los puntos de datos son las más útiles. Sin embargo, esto puede no ser cierto. Un ejemplo de contador popular es la tarea de contar panqueques dispuestos en una pila, con la masa del panqueque representando puntos de datos:

Para contar el número de panqueques, un panqueque se diferencia del siguiente a lo largo del eje vertical (es decir, la altura de la pila). Sin embargo, si la pila es corta, PCA identificaría erróneamente un eje horizontal (es decir, el diámetro de los panqueques) como un componente principal útil para nuestra tarea, ya que sería la dimensión a lo largo de la cual hay una mayor extensión.

Interpretación de componentes . Si podemos interpretar los componentes principales de la pila de panqueques, con etiquetas inteligibles como “altura de la pila” o “diámetro de panqueques”, podríamos seleccionar los componentes principales correctos para el análisis. Sin embargo, esto no suele ser el caso. Las interpretaciones de los componentes generados deben inferirse, y a veces podemos tener dificultades para explicar la combinación de variables en un componente principal.

No obstante, tener conocimientos previos de dominio podría ayudar. En nuestro ejemplo con alimentos, el conocimiento previo de las principales categorías de alimentos nos ayuda a comprender por qué las variables nutricionales se combinan de la forma en que se forman los componentes principales.

Componentes Ortogonales . Una desventaja importante de PCA es que los componentes principales que genera no deben solaparse en el espacio, también conocidos como componentes ortogonales . Esto significa que los componentes siempre se colocan a 90 grados entre sí. Sin embargo, esta suposición es restrictiva ya que las dimensiones informativas pueden no ser necesariamente ortogonales entre sí:

Para resolver esto, podemos usar una técnica alternativa llamada Análisis de componentes independientes (ICA).

ICA permite que sus componentes se superpongan en el espacio , por lo que no es necesario que sean ortogonales. En cambio, ICA prohíbe que sus componentes se superpongan en la información que contienen, con el objetivo de reducir la información mutua compartida entre los componentes. Por lo tanto, los componentes de ICA son independientes , y cada componente revela información única sobre el conjunto de datos.

Hasta ahora, la información ha sido representada por el grado de propagación de datos, con dimensiones a lo largo de las cuales los datos están más dispersos y son más informativos. Esto puede no ser siempre cierto, como se ve en el ejemplo de panqueque. Sin embargo, ICA puede superar esto teniendo en cuenta otras fuentes de información además de la difusión de datos.

Por lo tanto, ICA puede ser una técnica de respaldo para usar si sospechamos que los componentes deben derivarse en base a información más allá de la difusión de datos, o que los componentes pueden no ser ortogonales.

Conclusión

PCA es una técnica clásica para derivar variables subyacentes, reduciendo el número de dimensiones que debemos considerar en un conjunto de datos. En nuestro ejemplo anterior, pudimos visualizar el conjunto de datos de alimentos en un gráfico bidimensional, aunque originalmente tenía 4 variables. Sin embargo, PCA hace varias suposiciones, como confiar en la difusión de datos y la ortogonalidad para derivar componentes. Por otro lado, ICA no está sujeto a estos supuestos. Por lo tanto, en caso de duda, uno podría considerar ejecutar un ICA para verificar y complementar los resultados de un PCA.

Para más tutoriales legos, visite: Annalyzing Life | Tutoriales y experimentos de análisis de datos para Layman

Por lo general, tratamos de entender un sistema a través de varias cantidades de medición. La mayoría de las veces, no sabemos sobre el sistema y su dinámica debido a las siguientes razones (i) El sistema en sí mismo es tan complejo (ii) El experimentador no entendió bien el sistema. Por lo tanto, los datos recopilados del sistema son ruidosos y redundantes. El redundante significa que una característica en particular podría haber capturado cierta información y, al mismo tiempo, podríamos haber elegido otra característica que capture la misma información parcial o totalmente. (Características correlacionadas)

Ejemplo:

Hay tantos círculos en la figura anterior. Un experimentador intenta representar todos los círculos en términos de características. Ha elegido dos características para representar cada círculo (es decir, perímetro y área del círculo). Suponga que ha elegido una forma de medir ambas características (sin usar fórmula). A veces, comete un error al medir esas características (error sistemático). Esta es una de las razones por las cuales los datos son ruidosos.

De la figura anterior, podemos ver que ambas características están correlacionadas. Entre esas dos características, cualquier característica puede servir al propósito. Una característica, el radio de un círculo en sí mismo es más que suficiente para distinguir cada círculo (tanto las características del perímetro como las del área son solo función del radio). Esto se conoce como redundancia.

PCA convierte características correlacionadas en características ortogonales. (es decir, cada función proporciona información única sobre los datos. No hay dos funciones que no tengan ninguna información común sobre los datos ([matemática] \ sigma_ {xy} = \ sigma_ {yx} = 0 [/ matemática]). ventajas de usar características ortogonales sobre características correlacionadas. Algunas de ellas son

  • Podemos visualizar el conjunto de datos complejos en un espacio dimensional inferior ( Biplot )

  • Podemos eliminar las funciones redundantes. Por lo tanto, podemos reducir el espacio de características original a un espacio dimensional más bajo que reduce en gran medida los recursos computacionales .
  • Podemos usarlo como técnica de selección de características .
  • Podemos usar los componentes principales como entrada para el problema de aprendizaje supervisado.
  • Ayuda a resolver la maldición del problema de dimensionalidad en el aprendizaje automático. Maldición de dimensionalidad : si n muestra es lo suficientemente densa para 1D (solo una característica), entonces en d dimensión necesitamos [matemáticas] n ^ {d} [/ matemáticas] muestras. [matemáticas] n ^ {d} [/ matemáticas] crece realmente rápido en función de d. Podemos reducir la dimensión de los datos utilizando PCA.

PCA convierte las características originales en nuevas características y las nuevas características (espacio de características transformadas) poseen las siguientes propiedades.

1. La correlación entre las nuevas características es cero.
2. La nueva característica (PC1) es una combinación lineal de características antiguas PC1 = [matemática] \ sum_ {j = 1} ^ {2} w_ {j1} x_ {j} [/ matemática] (donde j representa características)
3. Los nuevos ejes de características se denominan vectores de carga de componentes principales o componentes principales. Nuestros datos son bidimensionales. Por lo tanto, se pueden obtener dos componentes principales. Primer componente principal = [matemáticas] [w_ {11}, w_ {21}] [/ matemáticas], Segundo componente principal = [matemáticas] [w_ {12}, w_ {22}] [/ matemáticas]. Las nuevas características PC1 y PC2 se denominan como puntajes de componentes principales.
[matemáticas] PC1 = \ sum_ {j = 1} ^ {2} w_ {j1} x_ {j} \ tag {1} [/ matemáticas]
4. La varianza de la puntuación del primer componente principal es máxima (PC1).
5. La varianza de la puntuación del segundo componente principal es la segunda más grande y la correlación entre ellos (PC1 y PC2) es cero.
6. Si la dimensión de los datos es P, entonces la varianza de la primera puntuación de PC sería máxima, la segunda puntuación de PC tendría la segunda mayor varianza …, [componente matemático P ^ {th} [/ math] tendría la menor varianza .

¿Como funciona?

1. Explicando PCA a través de la optimización

El primer componente principal se elige de tal manera que la varianza de su puntaje sea máxima. Supongamos que X es n [matemática] \ veces [/ matemática] matriz centrada en P (n observaciones y p características)

El componente principal [math] 1 ^ {st} [/ math] viene dado por

[math] Max Var (Xw_ {1}) \ tag {2} [/ math]

[matemática] Restricción: w_ {1} ^ {T} w_ {1} = 1 \ tag * {} [/ matemática]

La restricción se agrega para evitar elegir valores arbitrariamente grandes para el vector [math] w_ {1} [/ math]. Si no se agrega esa restricción, arbitrariamente elige un valor grande (a veces infinito) para el vector [math] w_ {1} [/ math] para maximizar la función objetivo.

El componente principal [math] 2 ^ {nd} [/ math] viene dado por

[math] Max Var (Xw_ {2}) \ tag {3} [/ math]

[matemática] Restricción1: w_ {2} ^ {T} w_ {2} = 1 \ tag * {} [/ matemática]

[matemática] Restricción2: w_ {1} ^ {T} w_ {2} = 0 (Ortogonal) \ tag * {} [/ matemática]

Se agrega una restricción más para asegurarse de que ambos componentes sean ortogonales.

En lugar de maximizar la varianza de las puntuaciones de PC, los componentes principales también se pueden encontrar minimizando el error de reconstrucción ya que ambos métodos producen los mismos componentes.

Como se muestra en la figura, el error de reconstrucción no es más que la diferencia entre los puntos de datos originales y la puntuación del componente principal (puntos de datos proyectados).

[matemáticas] 1 ^ {st} [/ matemáticas] El componente principal viene dado por

[matemáticas] Mín. || X-Xw_ {1} w_ {1} || ^ {2} \ tag {4} [/ matemáticas]

[matemática] Restricción: w_ {1} ^ {T} w_ {1} = 1 \ tag * {} [/ matemática]

Si simplificamos la función objetivo anterior (es decir, [matemática] || X-Xw_ {1} w_ {1} || ^ {2} [/ matemática]), la ecuación resultante será = [matemática] constante – constante \ multiplicado por Var (Xw_ {2}) [/ math] que no es más que la ecuación 2.

Muestra que minimizar el error de reconstrucción es lo mismo que maximizar la varianza de la puntuación del componente principal.

2. Explicar PCA gráficamente

PCA encuentra un vector (primer componente principal), que produce el rango de variabilidad máxima (un vector con longitud máxima).

Estos vectores no tienen longitud máxima.

Un vector con longitud máxima o el vector que produce un error de reconstrucción mínimo o el vector que genera la varianza máxima para los datos proyectados se llama como el primer componente principal.

El segundo componente principal es un vector con la segunda mayor longitud o el vector que genera la segunda mayor varianza para los datos proyectados o el vector que produce el segundo error mínimo de reconstrucción. También satisface una restricción más de que es ortogonal al primer componente principal.

3. También podemos encontrar componentes principales mediante algunas técnicas de descomposición de matrices.

1. Descomposición del valor propio (aplicación de EVD en la matriz de covarianza de X)
2. Descomposición de vectores singulares (aplicando SVD en la matriz de datos X con tamaño n \ veces p, donde n es observaciones yp es número de características)

El análisis de componentes principales o PCA en resumen, es una técnica específica para el análisis multivariante (MA) utilizada en la reducción de dimensiones.

Suponga que está interesado en un estudio para descubrir qué características o variables X afectan una respuesta determinada, Y. Sucede que a menudo el estudio obtiene demasiadas variables que parecen afectar a Y de ciertas maneras. El problema se convierte en cómo evaluar dichos datos para comprender claramente cuál es el alcance de los efectos de estas variables en Y. En MA, debe recordarse que estamos tratando con datos multidimensionales y, a menudo, los datos están representados por la matriz de datos donde cada variable tiene varios valores y hay varias variables. En caso de que ciertas variables estén correlacionadas, entonces se construye la Matriz de correlación y se construye una Matriz de dispersión para organizar todas las dispersiones o la suma de los cuadrados involucrados. ¡Es una buena manera de revisar Matrix Algebra!

Existen varios métodos para analizar dichos datos. Un método popular es el análisis de conglomerados, en el que los datos en sí mismos, cuando se grafican gráficamente, dan pistas sobre qué variables deben estudiarse primero o agruparse.

Otra situación podría ser cuando, todas las variables parecen afectar la respuesta en cierta medida. En tal caso, el PCA se adopta para reducir la dimensión de los datos a un número manejable de dimensiones.

En una muestra de dicho estudio, si los datos originales tienen una dimensión de D, es decir, la totalidad de todas las variables con todas las observaciones sobre ellas. Luego, se define un conjunto de k- combinaciones lineales de las variables donde k es mucho más pequeño que D.

Luego hay k nuevas combinaciones de variables que se procede a analizar y no las variables originales. El objetivo es elegir la k, de tal manera que explique una buena proporción de la dispersión total en los datos.

Otra técnica muy similar a la PCA se conoce como Análisis Factorial (FA) y a menudo es un punto de confusión entre la FA y la PCA. La principal diferencia es que, en FA, las combinaciones lineales de dimensiones inferiores se seleccionan para variables “correlacionadas” con la esperanza de explicar las correlaciones.

Ok, aqui vamos!

Supongamos que tienes tu fiesta de cumpleaños y quieres invitar a 10 amigos. Desea enviar una carta de invitación escrita a mano. El problema es que todos ellos tienen nombres súper largos, dicen nombres que tienen 20 palabras cada uno (nombre de la madre y apellido de soltera, nombre y apellido del padre, etc. hasta 4 generaciones, todos están incluidos). ¿Cómo haces esto?

Es obvio que querrás acortar esos nombres y usar solo las palabras significativas que identifiquen de manera única a cada uno de ellos, ¿verdad? Digamos que eliges su nombre (como en el nombre que les dieron sus padres y el apellido del padre) O escribes sus nombres en bruto y solo le das un apodo elegante que se asigna de forma exclusiva a sus nombres.


Esto es lo que hace PCA, le ayuda a encontrar los componentes principales que son realmente útiles e importantes para encontrar un ajuste a los datos originales.

Más información: reducción de la dimensionalidad.

Con una gran cantidad de variables, la matriz de dispersión puede ser demasiado grande para estudiarla e interpretarla adecuadamente. Habría demasiadas correlaciones por pares entre las variables a considerar. La visualización gráfica de datos también puede no ser de particular ayuda en caso de que el conjunto de datos sea muy grande. Con 12 variables, por ejemplo, ¡habrá más de 200 diagramas de dispersión tridimensionales para estudiar!

El análisis de componentes principales es un procedimiento para identificar un número menor de variables no correlacionadas, llamadas “componentes principales”, a partir de un gran conjunto de datos. El objetivo del análisis de componentes principales es explicar la cantidad máxima de varianza con el menor número de componentes principales.

El análisis de componentes principales se usa comúnmente como un paso en una serie de análisis. Puede usar el análisis de componentes principales para reducir el número de variables y evitar la multicolinealidad, o cuando tiene demasiados predictores en relación con el número de observaciones.

Para interpretar los datos en una forma más significativa, por lo tanto, es necesario reducir el número de variables a unas pocas combinaciones lineales interpretables de los datos. Cada combinación lineal corresponderá a un componente principal.

Ejemplo

Una compañía de productos de consumo quiere analizar las respuestas de los clientes a varias características de un nuevo champú: color, olor, textura, limpieza, brillo, volumen, cantidad necesaria para hacer espuma y precio. Realizan un análisis de componentes principales para determinar si pueden formar un número menor de variables no correlacionadas que sean más fáciles de interpretar y analizar.

Solo algunas cosas para agregar a la respuesta de Peter.

PCA (generalmente) se refiere a una forma específica de reducción de dimensión donde los componentes principales se dibujan en los ejes secuencialmente ortogonales de la mayor varianza .

En términos matemáticos, es una transformación de sus variables X en el espacio de la PC, manteniendo toda la información como un todo.

Cuando aprendí por primera vez el análisis de componentes principales, me enseñaron que era una técnica observacional / descriptiva.

Me gusta la visión de “observacional”, porque proporciona algunas lecciones prácticas:
1. Existen métodos diseñados específicamente para hacer modelado / inferencias que se basan en componentes principales y no deben confundirse con PCA
2. La PCA es comúnmente mal aplicada y mal interpretada, y tratarla como un método de observación ayuda a dar un paso atrás de leer demasiado en sus resultados. Lo más importante, las PC se basan en las variaciones más grandes y nada más . Las variaciones grandes son generalmente significativas (por ejemplo, comúnmente proporcionan una separación excelente de dos grupos), pero no necesariamente .

ver los siguientes:
1. mi respuesta sobre ¿Cuál es el significado intuitivo de una matriz de covarianza?
2. ¿Cómo explicar PCA en términos simples?
3. Para una muy buena explicación, lea el documento de Shlens:
Shlens, Jonathon. “Un tutorial sobre análisis de componentes principales”. preimpresión arXiv arXiv: 1404.1100 (2014).

El análisis de componentes principales es un método de reducción de dimensiones.

Supongamos que tiene una gran cantidad de variables, demasiadas para tratarlas de manera efectiva. Si desea reemplazarlos con un número menor de variables, mientras pierde la menor cantidad de información posible, PCA es una forma de hacerlo.

Es diferente del análisis factorial (pero relacionado con él), que intenta encontrar factores latentes, es decir, cosas que no se pueden medir directamente.

El lenguaje utilizado en estos dos métodos es extremadamente confuso.

N Los vectores propios de una matriz con valores propios más altos se denominan N – Componentes principales de la matriz. Conduce a encontrar una versión dimensionalmente reducida de cada fila de Matrix (el nuevo número de dimensiones es N)
Piense en ello como N dimensiones más importantes para un conjunto de vectores.
El proceso de conversión de vectores en estas N dimensiones es PCA.

El video proporciona una explicación intuitiva de PCA a través de gráficos.