¿Por qué es beneficioso centrar y normalizar los datos antes de ejecutar el Análisis de componentes principales en él?

PCA (Análisis de componentes principales) encuentra nuevas direcciones basadas en la matriz de covarianza de las variables originales. También sabíamos que la matriz de covarianza es sensible a la estandarización de variables. Por lo general, hacemos estandarización para asignar pesos iguales a todas las variables. Significa que si no estandarizamos las variables antes de aplicar PCA, obtendremos direcciones engañosas. Pero, no es necesario estandarizar las variables, si todas las variables están en la misma escala.

Elegí una muestra de datos (4 características y 150 observaciones) para mostrar la necesidad de estandarización de datos antes de aplicar PCA.

Biplot

Una nueva dirección de PCA viene dada por la combinación lineal (carga) de variables originales. Biplot muestra vectores de carga para los dos primeros componentes principales.

Biplot para datos no estandarizados

Biplot para datos estandarizados

Los ejes izquierdo e inferior muestran puntajes de componentes principales; los ejes superior y derecho muestran los vectores de carga. Los gráficos anteriores muestran que obtendremos diferentes vectores de carga, si no estandarizamos los datos antes de aplicar PCA.

Gráfico de sedimentación

Traza la cantidad de varianza explicada por cada componente principal.

Screeplot para datos no estandarizados

Screeplot para datos estandarizados

También muestra que obtendremos diferentes componentes principales, si no estandarizamos los datos antes de aplicar PCA.

Técnicamente, PCA incluye el centrado (resta media) de los datos. Esto se hace para calcular la matriz de covarianza. La descomposición propia se aplica luego a la matriz de covarianza, con los valores propios correspondientes a la varianza de los datos a lo largo de los vectores propios.

Un enfoque alternativo, pero equivalente, es utilizar una descomposición de valor singular (SVD) de la matriz de datos. La resta media debe hacerse antes de la SVD para que esto sea equivalente.

La normalización (dividida por la varianza) no es necesaria.

¿Quiere decir normalizar a valores [-1: +1]?
Depende de si estás comparando características, creo. (O simplemente análisis de componentes independientes). (Con el SVM incorporado de Matlab, por ejemplo).

Imagine que tiene un conjunto de datos X1, X2, X3, X4, … Imagina que te haces un PCA, obtienes una respuesta.

Ahora imagine que tomo esos datos y agrego un número constante (diferente) a cada uno, de modo que obtengo X1 + N1, X2 + N2, X3 + N3, X4 + N4, … Todo lo que he hecho es cambiar dónde están los datos en el espacio, pero no he hecho nada para cambiar la configuración relativa de los datos. Esperaría que la PCA diera la misma respuesta que antes. Ahora, sumar todos esos números no hace más que cambiar los medios. Por lo tanto, esperaría que, para obtener la misma respuesta de la PCA, debería eliminar los medios.

More Interesting

¿Qué matemática debería revisar / aprender si quiero comprender a fondo el modelado de efectos mixtos / modelado de regresión?

¿Qué ha causado la gran mejora en los algoritmos de reconocimiento de voz en los últimos años: mejores algoritmos (si es así, ¿cuál?) O la mayor potencia informática?

¿Necesito un título universitario para trabajar en el aprendizaje automático?

¿Qué es el aprendizaje profundo en los puntos de vista sociológicos?

¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?

¿Cuál es la mejor manera de encontrar análisis de sentimientos?

¿Cuáles son las cosas divertidas que encontró en el procesamiento del lenguaje natural (PNL)?

Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?

¿Cómo funciona el modelo de atención con LSTM?

¿Cuáles son las formas en que el científico de datos indio que actualmente trabaja en una empresa de aprendizaje automático con sede en India inmigra a los Estados Unidos?

¿Qué tipo de habilidades de codificación se requieren para trabajar en el aprendizaje automático en empresas como Facebook, Quora, Google, Microsoft?

¿Cuáles serían los proyectos / servicios más interesantes en el cuidado de la salud que involucren alta tecnología como dispositivos móviles, big data y data science? Por ejemplo, Ginger.io.

¿Con qué frecuencia debe verificar el conjunto de validación durante el entrenamiento de la red neuronal en función de los ejemplos de entrenamiento (cada N ejemplos de entrenamiento)?

Cómo mostrar que una convolución transpuesta es equivalente a un paso de respaldo de la capa de convolución, con los mismos pesos que en una propagación hacia adelante

¿Cuáles son las innovaciones clave en el documento 'Evolución a gran escala de clasificadores de imágenes' de Google Brain?