PCA (Análisis de componentes principales) encuentra nuevas direcciones basadas en la matriz de covarianza de las variables originales. También sabíamos que la matriz de covarianza es sensible a la estandarización de variables. Por lo general, hacemos estandarización para asignar pesos iguales a todas las variables. Significa que si no estandarizamos las variables antes de aplicar PCA, obtendremos direcciones engañosas. Pero, no es necesario estandarizar las variables, si todas las variables están en la misma escala.
Elegí una muestra de datos (4 características y 150 observaciones) para mostrar la necesidad de estandarización de datos antes de aplicar PCA.
Biplot
- ¿Hay alguna conexión entre el aprendizaje de kernel múltiple (MLK) y el aprendizaje profundo?
- ¿Hay algún sitio web donde pueda encontrar ideas para mi tesis de licenciatura en Informática? (Estoy interesado en algoritmos y aprendizaje automático).
- ¿Cuáles son los ejemplos de redes neuronales profundas extremas (más de 150 capas)?
- ¿Qué hace la diferencia entre un algoritmo normal y un algoritmo de aprendizaje automático?
- ¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?
Una nueva dirección de PCA viene dada por la combinación lineal (carga) de variables originales. Biplot muestra vectores de carga para los dos primeros componentes principales.
Biplot para datos no estandarizados
Biplot para datos estandarizados
Los ejes izquierdo e inferior muestran puntajes de componentes principales; los ejes superior y derecho muestran los vectores de carga. Los gráficos anteriores muestran que obtendremos diferentes vectores de carga, si no estandarizamos los datos antes de aplicar PCA.
Gráfico de sedimentación
Traza la cantidad de varianza explicada por cada componente principal.
Screeplot para datos no estandarizados
Screeplot para datos estandarizados
También muestra que obtendremos diferentes componentes principales, si no estandarizamos los datos antes de aplicar PCA.