¿Por qué es beneficioso centrar y normalizar los datos antes de ejecutar el Análisis de componentes principales en él?

PCA (Análisis de componentes principales) encuentra nuevas direcciones basadas en la matriz de covarianza de las variables originales. También sabíamos que la matriz de covarianza es sensible a la estandarización de variables. Por lo general, hacemos estandarización para asignar pesos iguales a todas las variables. Significa que si no estandarizamos las variables antes de aplicar PCA, obtendremos direcciones engañosas. Pero, no es necesario estandarizar las variables, si todas las variables están en la misma escala.

Elegí una muestra de datos (4 características y 150 observaciones) para mostrar la necesidad de estandarización de datos antes de aplicar PCA.

Biplot

Una nueva dirección de PCA viene dada por la combinación lineal (carga) de variables originales. Biplot muestra vectores de carga para los dos primeros componentes principales.

Biplot para datos no estandarizados

Biplot para datos estandarizados

Los ejes izquierdo e inferior muestran puntajes de componentes principales; los ejes superior y derecho muestran los vectores de carga. Los gráficos anteriores muestran que obtendremos diferentes vectores de carga, si no estandarizamos los datos antes de aplicar PCA.

Gráfico de sedimentación

Traza la cantidad de varianza explicada por cada componente principal.

Screeplot para datos no estandarizados

Screeplot para datos estandarizados

También muestra que obtendremos diferentes componentes principales, si no estandarizamos los datos antes de aplicar PCA.

análisis de componentes principalesAprendizaje automáticoestadísticas

¿Qué campo es el mejor, big data o machine learning?

¿Cuáles son los campos de negocios donde se puede usar la red neuronal?

Los algoritmos parecen estar involucrados con muchas partes de nuestras vidas. ¿Qué son y cómo podría aprender más?

¿Cuáles son las mejores empresas de minería de datos?

¿Qué es diferenciar los bosques aleatorios de otros métodos de conjunto en Data Science y por qué?

¿Qué servidores son los mejores para diferentes propósitos?

Técnicamente, PCA incluye el centrado (resta media) de los datos. Esto se hace para calcular la matriz de covarianza. La descomposición propia se aplica luego a la matriz de covarianza, con los valores propios correspondientes a la varianza de los datos a lo largo de los vectores propios.

Un enfoque alternativo, pero equivalente, es utilizar una descomposición de valor singular (SVD) de la matriz de datos. La resta media debe hacerse antes de la SVD para que esto sea equivalente.

La normalización (dividida por la varianza) no es necesaria.

Dan Ofer

¿Quiere decir normalizar a valores [-1: +1]?
Depende de si estás comparando características, creo. (O simplemente análisis de componentes independientes). (Con el SVM incorporado de Matlab, por ejemplo).

Balaji Pitchai Kannu

Imagine que tiene un conjunto de datos X1, X2, X3, X4, … Imagina que te haces un PCA, obtienes una respuesta.

Ahora imagine que tomo esos datos y agrego un número constante (diferente) a cada uno, de modo que obtengo X1 + N1, X2 + N2, X3 + N3, X4 + N4, … Todo lo que he hecho es cambiar dónde están los datos en el espacio, pero no he hecho nada para cambiar la configuración relativa de los datos. Esperaría que la PCA diera la misma respuesta que antes. Ahora, sumar todos esos números no hace más que cambiar los medios. Por lo tanto, esperaría que, para obtener la misma respuesta de la PCA, debería eliminar los medios.

Dan Ofer

More Interesting

¿Qué matemática debería revisar / aprender si quiero comprender a fondo el modelado de efectos mixtos / modelado de regresión?

¿Qué ha causado la gran mejora en los algoritmos de reconocimiento de voz en los últimos años: mejores algoritmos (si es así, ¿cuál?) O la mayor potencia informática?

¿Necesito un título universitario para trabajar en el aprendizaje automático?

¿Qué es el aprendizaje profundo en los puntos de vista sociológicos?

¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?

¿Cuál es la mejor manera de encontrar análisis de sentimientos?

¿Cuáles son las cosas divertidas que encontró en el procesamiento del lenguaje natural (PNL)?

Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?

¿Cómo funciona el modelo de atención con LSTM?

¿Cuáles son las formas en que el científico de datos indio que actualmente trabaja en una empresa de aprendizaje automático con sede en India inmigra a los Estados Unidos?