¿Qué nos dicen las cargas de variables del análisis de componentes principales?

Supongo que se refiere a la matriz de carga de factores en un modelo de PCA: [math] y = Wx [/ math].

Suponga que tiene [matemáticas] N [/ matemáticas] observaciones [matemáticas] x_n [/ matemáticas] de dimensionalidad [matemáticas] p [/ matemáticas]. Deje X ser la matriz de observaciones. Cada punto de datos es un vector en el espacio euclidiano p-dimensional.

PCA tiene como objetivo encontrar una nueva base para que los puntos de datos estén correlacionados. La descorrelación se traduce matemáticamente en ortogonalidad con respecto a la correlación. Lo hace básicamente al encontrar los vectores propios de la matriz de covarianza de datos, esto le da una nueva base ortogonal del espacio.

El objetivo de PCA es usar esto para reducir la dimensionalidad de los datos. Para hacer esto, desea mantener menos dimensiones que [math] p [/ math], lo que significa que proyecta los datos en el espacio de dimensiones inferiores y elige los vectores base para:

  1. Maximiza la varianza proyectada
  2. Minimice el error de reconstrucción entre las observaciones reconstruidas (basadas en las proyecciones) y las observaciones reales

Estos dos criterios son equivalentes y conducen a elegir los vectores propios de la matriz de covarianza que están asociados con los valores propios más altos.

Las cargas son las coordenadas de sus puntos de datos con respecto a esta nueva base.

Olvídese de cómo funciona PCA, o qué criterio optimiza. Eso no importa para entender las cargas .

Hay muchos enfoques que reducen las dimensiones de sus datos de forma lineal (es decir, “panquean” los datos). PCA es uno de ellos y otros usan un criterio diferente (por ejemplo, otro es PCA disperso).

Lo que importa es que estas técnicas nos dan un nuevo marco de referencia.

Por ejemplo, puedo obtener un marco girado girando cada eje / columna del plano xy habitual

[matemáticas] \ begin {pmatrix} 1 & 0 \\ 0 & 1 \ end {pmatrix} [/ math]

por un ángulo [matemática] \ theta [/ matemática], para obtener

[matemáticas] W = \ begin {pmatrix} \ cos (\ theta) & – \ sin (\ theta) \\ \ sin (\ theta) & \ cos (\ theta) \ end {pmatrix}. [/ math]

Estas columnas actúan como ejes del nuevo marco. Aíslemos la primera columna / eje [math] \ mathbf {w} _1 [/ math].

Los números dentro del estado de la contribución de cada eje del marco original que se carga para construir [math] \ mathbf {w} _1 [/ math]. De hecho, una [math] \ cos (\ theta) [/ math] cantidad de [math] \ begin {pmatrix} 1 \\ 0 \ end {pmatrix} [/ math] y un [math] \ sin (\ theta ) [/ math] cantidad de [math] \ begin {pmatrix} 0 \\ 1 \ end {pmatrix} [/ math].

Una receta Y de la misma manera con [math] \ mathbf {w} _2 [/ math].

Para conectar todo esto a PCA, lo que está viendo en un vector propio son las cargas / contribuciones de los ejes originales para hacer el vector propio. Que luego actúa como un eje en el nuevo marco de los datos “pancakeados” .

Pueden ayudarlo a contextualizar el significado de los componentes principales, en función de los coeficientes en la matriz de carga y las variables originales. por ejemplo

Si tiene 4 categorías para 20 países:

  • Cuidado de la salud (V1)
  • Esperanza de vida (V2)
  • Tasa de mortalidad (V3)
  • Enfermedad juvenil (V4)

Entonces desea reducir la dimensión a 2 variables por PCA, digamos que obtenemos

PC1 = 0.7V1 + 0.8V2–0.8V3–0.9V4

PC2 = 0.1V1 + 0.2V2 + 0.7V3 + 0.9V4

Entonces podríamos decir que PC1 refleja el estado general de salud del país, si PC1> 0 el país tiene valores más altos en V1 y V2 que en V3 y V4, y debido al tipo de variables que tenemos, ese es un significado que podríamos dar a PC1, mientras que PC2 refleja los aspectos negativos de cada país, los altos niveles de PC2 indican que V3 y V4 son altos.

Así es como podría usar la magnitud y los signos de la matriz de carga para mejorar su análisis en PCA

Debe tener cuidado, este análisis depende de la magnitud de cada variable original, no desea comparar kg vs g en 2 variables diferentes debido a la escala y la varianza.

More Interesting

¿Cuál es la diferencia entre la estimación de máxima verosimilitud (ML) y máxima a Posteri (MAP)?

¿Cómo se debe contactar a los autores de los libros blancos (y cómo hacer que respondan)?

¿Cuáles son algunos de los conjuntos de habilidades esenciales que debe tener un desarrollador de aprendizaje automático?

¿Cómo se ajustan los pesos en una red neuronal mientras estoy entrenando la red?

¿Qué es el 'aprendizaje automático de crowdsourcing'?

¿El objetivo de un autoencoder variacional y una red de confrontación generativa es el mismo?

¿Será posible usar una red neuronal para determinar si algo está en el Valle Uncanny?

Además de las redes neuronales profundas, ¿existen antecedentes para cálculos largos con una inferencia máxima a posteriori eficiente?

¿Por qué la similitud de un coseno menos es igual a la distancia del coseno?

¿Por qué está disminuyendo el número de concursos públicos de Kaggle con premios en efectivo?

¿Cuál es el mejor algoritmo para la extracción de características en imágenes?

¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?

Cómo usar SVM para clasificar imágenes normales y anormales si se conocen las características

¿De qué sirven los algoritmos de aprendizaje si no podemos pensar por nuestra cuenta?

¿Cómo deberíamos acelerar el procesamiento de datos del lenguaje R?