¿Qué es un componente principal y por qué se llama así?

Es ilustrativo imaginar lo que está sucediendo con un ejemplo tremendamente hipotético.

Imagine que tiene un arquitecto loco que quiere construir un rascacielos en una montaña muy empinada que tiene una pendiente de 10. Es decir, a medida que avanza hacia la montaña, hará 1 metro de progreso horizontal y 10 metros de progreso vertical.

Ahora, el arquitecto loco construye un rascacielos de 20 pisos que es perpendicular a la pared de la montaña, (NO aplomado a la gravedad). Es decir, el rascacielos apunta casi horizontalmente a una pendiente de 1/10. (¡No muy práctico!). Decide instalar un ascensor, pero como está loco, marca los pisos de acuerdo con cuántas historias subes desde el VERTICAL. Eso significa que para llegar al piso 10, debe presionar el botón marcado “1”. El piso 20 sería “2”. El quinto piso se marcaría “0.5”.

Por supuesto que odias esto. Significa que el residente del piso superior solo podía jactarse de que estaba en el segundo piso. El problema es que el arquitecto loco está midiendo la altura del piso desde la perpendicular de la superficie de la tierra. Preferiría que los números de piso estuvieran más dispersos. Lo que desea es medir el piso en función de la DIRECCIÓN del edificio se eleva y no la dirección de la gravedad.

En otras palabras, desea medir los pisos que le dan el máximo cambio de piso. Entonces, en lugar de utilizar la coordenada x, y, z “estándar”, desea un nuevo sistema de coordenadas donde la longitud del edificio (20) sea el Componente Principal. Esto implica una simple rotación del sistema de coordenadas.

Este es un ejemplo artificial, ya que en la práctica, se pueden combinar, rotar y estirar / comprimir múltiples ejes en un nuevo eje.

Afortunadamente, la PCA que usa álgebra matricial proporciona rotaciones relativamente fáciles para encontrar los “mejores” nuevos sistemas de coordenadas. Si tiene suerte, podría descartar uno o más de los componentes principales si esas direcciones tienen un cambio mínimo en los datos en esa dirección.

La desventaja de PCA es que ha combinado ejes (vectores) de formas que son difíciles de interpretar, especialmente cuando tiene un gran espacio de características dimensionales.

(¡Y estás atrapado con un arquitecto loco!)

Suponiendo que comprenda los conceptos básicos de lo que vinculó, los componentes principales son simplemente las bases ortogonales que explican la mayor variación en sus datos. Entonces, cuando los ejes se reorientan a la base de (PC1, PC2) en lugar de (X, Y), los componentes principales son PC1 y PC2. Esta base puede definirse mediante un conjunto de vectores de base unitaria, tal como la base (X, Y) puede definirse por los vectores de base unitaria <1, 0> y <0, 1>.

En dos dimensiones, son solo una forma de orientar los ejes de modo que los puntos estén mejor distribuidos que en el sistema de coordenadas original, con la restricción, por supuesto, de que estas orientaciones deben ser ortogonales entre sí. En más de dos dimensiones, no existe una forma espacial tan simple de explicarlo, pero es la misma idea básica.

More Interesting

¿Cuáles son mis próximos pasos en el aprendizaje automático después de aprender estadísticas y álgebra lineal?

¿Cuáles son algunas buenas ideas de proyectos en el área de análisis / predicción del mercado de valores utilizando Bayes ingenuo?

¿Qué consejo daría Yoshua Bengio a los jóvenes investigadores que ingresan al campo del aprendizaje automático?

¿Cuándo debo usar la asignación de Dirichlet latente en la minería de texto? ¿Es bueno usarlo para un sistema que requiere alta precisión, como un sistema de detección de fraude?

¿Los ingenieros de aprendizaje automático en Google tienden a publicar artículos?

En términos simples, ¿cómo funciona Gibbs Sampling?

¿Debo aprender modelado e iluminación después de dominar el modelado en Blender?

¿Cómo podemos suprimir el ruido de fondo en un teléfono durante una llamada telefónica?

¿Por qué la biblioteca de estadísticas de Python es tan limitada en métodos bioestadísticos avanzados en comparación con R, mientras que la biblioteca de Python de Machine Learning es mucho mejor?

¿Cómo calculamos el error cuadrático medio en la regla de aprendizaje de LMS?

¿Alguien puede proporcionar ejemplos sobre cómo usar la biblioteca Shogun para modelos de Markov ocultos?

¿Los métodos de aprendizaje profundo conducen a avances en el procesamiento del lenguaje natural?

¿Cómo funciona la detección de rostros?

Con referencia a AdaBoost, ¿qué se entiende exactamente por 'ponderado' cuando se dice que entrena a un clasificador débil dada una distribución ponderada?

¿En qué se diferencia PyTorch de TensorFlow? ¿Cuáles son las ventajas de usar uno versus el otro? ¿Cuándo debo usar uno u otro?