¿Cuáles son las diferencias entre los métodos de análisis de componentes principales? La tecnología cambia la vida futura

El análisis de componentes principales ( PCA ) es un procedimiento estadístico que utiliza una transformación ortogonal para convertir un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables no correlacionadas linealmente llamadas componentes principales . El número de componentes principales es menor o igual que el número de variables originales. Esta transformación se define de tal manera que el primer componente principal tiene la mayor varianza posible (es decir, representa la mayor variabilidad posible en los datos), y cada componente subsiguiente a su vez tiene la mayor varianza posible bajo la restricción que es ortogonal a los componentes anteriores. Los vectores resultantes son un conjunto de bases ortogonales no correlacionadas. La PCA es sensible a la escala relativa de las variables originales. La PCA se utiliza principalmente como una herramienta en el análisis exploratorio de datos y para hacer modelos predictivos. El PCA se puede hacer mediante la descomposición del valor propio de una matriz de covarianza de datos (o correlación) o la descomposición de valores singulares de una matriz de datos, generalmente después de centrar la media (y normalizar o usar puntuaciones Z) la matriz de datos para cada atributo.

[4]

Los resultados de un PCA generalmente se discuten en términos de puntajes de componentes, a veces llamados puntajes de factores (los valores de las variables transformadas correspondientes a un punto de datos en particular) y cargas (el peso por el cual cada variable original estandarizada debe multiplicarse para obtener el puntaje de componentes )

[5]

PCA es el más simple de los verdaderos análisis multivariados basados en vectores propios. A menudo, se puede pensar que su funcionamiento revela la estructura interna de los datos de una manera que explica mejor la variación en los datos. Si un conjunto de datos multivariado se visualiza como un conjunto de coordenadas en un espacio de datos de alta dimensión (1 eje por variable), PCA puede proporcionar al usuario una imagen de menor dimensión, una proyección o “sombra” de este objeto cuando se ve desde su (en cierto sentido; ver más abajo) punto de vista más informativo. Esto se hace utilizando solo los primeros componentes principales para que se reduzca la dimensionalidad de los datos transformados.

PCA está estrechamente relacionado con el análisis factorial. El análisis factorial típicamente incorpora más supuestos específicos de dominio sobre la estructura subyacente y resuelve vectores propios de una matriz ligeramente diferente.

PCA también está relacionado con el análisis de correlación canónica (CCA). CCA define sistemas de coordenadas que describen de manera óptima la covarianza cruzada entre dos conjuntos de datos, mientras que PCA define un nuevo sistema de coordenadas ortogonales que describe de manera óptima la varianza en un solo

Algoritmosanálisis de componentes principalesAnálisis de datosAprendizaje automáticoestadísticasneurociencia computacional