¿Qué es el análisis de componentes principales?

Por lo general, tratamos de entender un sistema a través de varias cantidades de medición. La mayoría de las veces, no sabemos sobre el sistema y su dinámica debido a las siguientes razones (i) El sistema en sí mismo es tan complejo (ii) El experimentador no entendió bien el sistema. Por lo tanto, los datos recopilados del sistema son ruidosos y redundantes. El redundante significa que una característica en particular podría haber capturado cierta información y, al mismo tiempo, podríamos haber elegido otra característica que capture la misma información parcial o totalmente. (Características correlacionadas)

Ejemplo:

Hay tantos círculos en la figura anterior. Un experimentador intenta representar todos los círculos en términos de características. Ha elegido dos características para representar cada círculo (es decir, perímetro y área del círculo). Suponga que ha elegido una forma de medir ambas características (sin usar fórmula). A veces, comete un error al medir esas características (error sistemático). Esta es una de las razones por las cuales los datos son ruidosos.

De la figura anterior, podemos ver que ambas características están correlacionadas. Entre esas dos características, cualquier característica puede servir al propósito. Una característica, el radio de un círculo en sí mismo es más que suficiente para distinguir cada círculo (tanto las características del perímetro como las del área son solo función del radio). Esto se conoce como redundancia.

PCA convierte características correlacionadas en características ortogonales. (es decir, cada función proporciona información única sobre los datos. No hay dos funciones que no tengan ninguna información común sobre los datos ([matemática] \ sigma_ {xy} = \ sigma_ {yx} = 0 [/ matemática]). ventajas de usar características ortogonales sobre características correlacionadas. Algunas de ellas son

Podemos visualizar el conjunto de datos complejos en un espacio dimensional inferior (Biplot)
Podemos eliminar las funciones redundantes. Por lo tanto, podemos reducir el espacio de características original a un espacio dimensional más bajo que reduce en gran medida los recursos computacionales.
Podemos usarlo como técnica de selección de características.

Procesamiento de lenguaje natural: ¿Cuál es la mejor manera de calcular la similitud de cadenas?

¿Qué algoritmo de aprendizaje automático debo usar cuando tengo 5-6 valores categóricos independientes y 1 variable continua dependiente?

¿Es posible usar bibliotecas de aprendizaje automático OpenCV para aplicaciones que no son de visión por computadora?

¿Por qué necesitamos barajar entradas para el descenso de gradiente estocástico?

¿Cómo funcionan los filtros Prisma?

¿Cambridge o Stanford / Berkeley son mejores en aprendizaje automático?

De ninguna manera soy un experto en estadística y aprendizaje automático, pero primero diría que la mejor manera de entender algo como el Análisis de Componentes Principales (PCA) es probarlo usted mismo. Este sitio web tiene una buena herramienta interactiva con la que puede jugar: Análisis de componentes principales explicado visualmente. Sin embargo, déjame ver si puedo intentar proporcionar algo de intuición desde una perspectiva ML.

En el aprendizaje automático, una pregunta fundamental es “dado este conjunto de entradas y salidas, ¿podemos predecir qué salidas producirán las futuras entradas?”. Cómo exactamente se aplica esto depende de su problema específico, pero esta es, en cierto nivel, la pregunta motivadora por muchos problemas de ML en mi (limitada) experiencia. Además, generalmente el conjunto de entradas es multidimensional, y cada una de estas dimensiones se denomina característica.

Sin embargo, un problema que podríamos encontrar es que algunas de las características de nuestra entrada están realmente correlacionadas. Dependiendo de la fuerza de esta correlación, esto puede significar que estamos incluyendo dimensiones adicionales en nuestros datos de entrada cuando en realidad podemos obtener la misma cantidad de información con menos dimensiones. PCA nos brinda una forma sistemática de determinar qué combinaciones de características parecen ser más responsables de la variación de datos que otras y, por lo tanto, proporciona alguna orientación sobre cómo reducir el número de dimensiones en nuestra entrada. Tenga en cuenta que esto no significa necesariamente que PCA nos diga qué características son innecesarias; más bien, nos dice cómo podríamos combinar características en un subespacio más pequeño sin perder (mucha) información.

Por ejemplo, en la simulación vinculada, ve que, en el caso bidimensional, si sus datos están en una línea, PCA identifica fácilmente que sus x e y están correlacionadas y crea un nuevo sistema de coordenadas ortogonales para maximizar la varianza en el primer coordinar. Este hecho le permite ver que el segundo componente (principal) casi no tiene poder predictivo, por lo que probablemente pueda eliminarlo de sus modelos sin mucha pérdida. De esta manera, ha logrado proyectar 2 dimensiones en 1 dimensión sin perder mucha información. Si bien esto es bastante fácil de hacer visualmente en 2 dimensiones, hacerlo en n-dimensiones podría ser un poco más difícil …

Clásicamente, puede ser beneficioso reducir las dimensiones numéricas antes de alimentar los datos en algoritmos ML porque puede reducir la complejidad y el tiempo de cálculo. Sin embargo, también debo señalar que PCA no es una bala de plata, pero cuando funciona, es una gran herramienta para tener.

Charles Vr

Imagina que tienes un objeto muy extraño en tu mano, y solo puedes tocarlo y no verlo. ¿Cómo recordarías las características de este objeto? Tratarías de recordar cuánto difiere en los objetos normales, ¿verdad? Tal vez sea puntiagudo en algún lugar, liso en otros y algunas áreas mate; en general, intenta encontrar lugares que varíen más entre sí, es decir, la mayor variación.

En PCA, cuando encuentra esos componentes principales descomponiendo de manera propia la matriz de covarianza, está buscando direcciones en las que los datos varían más. Capturar las dimensiones más representativas le permitiría reducir las dimensiones.

George H. Seelinger

Trataré de explicar PCA en términos generales en lugar de con respecto a las estadísticas o el aprendizaje automático. Que puedes encontrar en Google.

Suponga que tiene 5 grupos diferentes de canciones que le informan sobre el género de esas canciones. Significa que tiene 5 grupos diferentes, cada uno de los cuales representa un tipo particular de género. Para que una nueva canción decida en qué grupo debe ponerla, pero permite que esta canción sea de género mixto y no puede etiquetarla en un grupo en particular. El análisis de componentes principales lo ayudará aquí. PCA le permite descubrir el componente principal de varios de los cuales depende un resultado particular. te ayudará a identificar un género principal para que puedas ubicar tu canción en ese grupo en particular sin tener en cuenta otras dependencias.

Espero que esto ayude.

Charles Vr

PCA significa encontrar la mejor proyección de sus puntos de datos n- dimensionales en un subespacio m- dimensional más pequeño *, donde “mejor” significa minimizar la distancia total (al cuadrado) entre sus puntos y sus proyecciones de dimensiones más pequeñas.

Si n = 2 ym = 1, esto es solo encontrar la mejor línea de ajuste para un diagrama de dispersión en el plano xy. Si n = 3 ym = 1, está buscando la mejor línea de ajuste para una nube de puntos en el espacio 3d. Si n = 3 ym = 2, está buscando el mejor plano de ajuste para una nube de puntos 3d.

Entonces es básicamente una generalización de regresión de mínimos cuadrados.

Se puede usar para detectar relaciones entre sus variables. Si tiene variables tridimensionales pero su mejor ajuste en el plano bidimensional las describe muy bien, entonces quizás los valores en la tercera dimensión sean solo una función lineal de las dos primeras, más o menos un poco de ruido gaussiano.

También se puede usar para la compresión de datos. Si necesita transferir datos, en lugar de enviar puntos de datos n-dimensionales, puede hacer PCA y enviar coordenadas m-dimensionales en un subespacio de mejor ajuste (más la ecuación del subespacio). No perderá ninguna información si el ajuste es exacto, y solo perderá un poco si está cerca.

A menudo se usa en el aprendizaje automático para descubrir y eliminar variables redundantes en su conjunto de datos, porque muchos algoritmos de aprendizaje automático funcionan mejor cuando cada variable aporta nueva información.

No siempre detecta la redundancia verdadera, no lineal, y si va a interpretar PCA estadísticamente, debe hacer algunas suposiciones sobre las relaciones subyacentes entre las variables / su ruido, pero es una herramienta muy útil incluso cuando algunas de esos supuestos no son perfectos.

Para un buen artículo que explica PCA con mucha más elocuencia y precisión (apuesto a que me equivoqué algunas cosas), consulte el blog de Lior Pachter.

* Antes de que alguien me corrija, por subespacio, no me refiero a la verdadera definición algebraica lineal de un subespacio que debe contener 0; Me refiero a un subespacio afín / traducido, o básicamente solo un punto / línea / plano / hiperplano.

Gopal Malakar

Estos videos son mucho para el mismo tema.

El siguiente video proporciona una explicación intuitiva de PCA a través de gráficos.

¿Qué es el análisis de componentes principales ?

¿Cómo hacer el análisis de componentes principales?

Ejemplo de análisis de componentes principales

Gopal Malakar

Las diapositivas a continuación presentan cómo funciona PCA. Traté de hacerlos muy fáciles de entender. Si los encontraste interesantes, puede que te guste la introducción completa que hice sobre Machine Learning aquí. ¡Espero que te guste!