(Entrada del tutorial tomada de: Algobeans | Analytics made Intuitive – no math! )
El problema
Imagine que es un nutricionista que intenta explorar el contenido nutricional de los alimentos. ¿Cuál es la mejor manera de diferenciar los alimentos? ¿Por contenido de vitaminas? Niveles de proteínas? O tal vez una combinación de ambos?
- Cómo encontrar qué variable de característica es más predictiva en un problema de clasificación binaria
- ¿Cómo se determina la significación estadística para las curvas ROC y los valores de AUC?
- ¿Cuáles son algunos de los obstáculos que evitan que las empresas aprovechen el poder del aprendizaje automático?
- ¿Es posible que un ingeniero de procesamiento de señales se involucre en el campo del aprendizaje automático?
- Cómo aprender a crear un sistema óptico de reconocimiento de caracteres utilizando redes neuronales artificiales como mi mini proyecto
Conocer las variables que mejor diferencian sus artículos tiene varios usos:
1. Visualización . El uso de las variables correctas para trazar elementos dará más información.
2. Descubriendo los racimos . Con buenas visualizaciones, se podrían identificar categorías o grupos ocultos. Entre los alimentos, por ejemplo, podemos identificar categorías amplias como carne y verduras, así como subcategorías como tipos de verduras.
La pregunta es, ¿cómo derivamos las variables que mejor diferencian los ítems?
Definición
El Análisis de componentes principales (PCA) es una técnica que encuentra variables subyacentes (conocidas como componentes principales ) que diferencian mejor sus puntos de datos. Los componentes principales son dimensiones a lo largo de las cuales sus puntos de datos están más dispersos:
Un componente principal puede expresarse mediante una o más variables existentes. Por ejemplo, podemos usar una sola variable, la vitamina C , para diferenciar los alimentos. Debido a que la vitamina C está presente en las verduras pero ausente en la carne, la gráfica resultante (abajo, a la izquierda) diferenciará las verduras de la carne, pero los artículos de carne se agruparán.
Para distribuir los productos cárnicos, podemos usar el contenido de grasa además de los niveles de vitamina C, ya que la grasa está presente en la carne pero ausente en las verduras. Sin embargo, los niveles de grasa y vitamina C se miden en diferentes unidades. Entonces, para combinar las dos variables, primero tenemos que normalizarlas , lo que significa cambiarlas a una escala estándar uniforme, lo que nos permitiría calcular una nueva variable: vitamina C menos grasa . La combinación de las dos variables ayuda a distribuir tanto los vegetales como los productos cárnicos.
La extensión puede mejorarse aún más agregando fibra, de la cual los artículos vegetales tienen niveles variables. Esta nueva variable – ( vitamina C + fibra) menos grasa – logra la mejor difusión de datos hasta el momento.
Mientras que en esta demostración intentamos derivar los componentes principales mediante prueba y error, PCA lo hace mediante cálculo sistemático.
Una ilustración
Usando datos del Departamento de Agricultura de los Estados Unidos, analizamos el contenido nutricional de una muestra aleatoria de alimentos. Se analizaron cuatro variables nutricionales: vitamina C, fibra, grasa y proteína. Para una comparación justa, los alimentos fueron crudos y medidos en 100 g.
Entre los alimentos, la presencia de ciertos nutrientes parece estar correlacionada. Esto se ilustra en el diagrama de barras a continuación con 4 elementos de ejemplo:
Específicamente, los niveles de grasa y proteína parecen moverse en la misma dirección entre sí, y en la dirección opuesta a los niveles de fibra y vitamina C. Para confirmar nuestra hipótesis, podemos verificar las correlaciones (tutorial: análisis de correlación) entre las variables de nutrición. Como se esperaba, hay grandes correlaciones positivas entre los niveles de grasa y proteína ( r = -0.56), así como entre los niveles de fibra y vitamina C ( r = 0.57).
Por lo tanto, en lugar de analizar las 4 variables de nutrición, podemos combinar variables altamente correlacionadas, dejando solo 2 dimensiones a considerar. Esta es la misma estrategia utilizada en PCA: examina las correlaciones entre las variables para reducir el número de dimensiones en el conjunto de datos. Es por eso que PCA se llama una técnica de reducción de dimensiones .
La aplicación de PCA a este conjunto de datos de alimentos da como resultado los siguientes componentes principales:
Los números representan los pesos utilizados en la combinación de variables para derivar componentes principales. Por ejemplo, para obtener el valor del componente principal superior (PC1) para un artículo alimenticio en particular, sumamos la cantidad de fibra y vitamina C que contiene, con un poco más de énfasis en la fibra, y luego de eso restamos la cantidad de grasa y Proteína que contiene, con proteína negada en mayor medida.
Observamos que el componente principal superior (PC1) resume nuestros hallazgos hasta ahora: ha emparejado la grasa con la proteína y la fibra con la vitamina C. También tiene en cuenta la relación inversa entre los pares. Por lo tanto, PC1 probablemente sirve para diferenciar la carne de las verduras. El segundo componente principal (PC2) es una combinación de dos variables nutricionales no relacionadas: la grasa y la vitamina C. Sirve para diferenciar aún más las subcategorías dentro de la carne (usando grasa) y las verduras (usando vitamina C).
El uso de los 2 principales componentes principales para trazar productos alimenticios resulta en la mejor distribución de datos hasta el momento:
Los artículos de carne (azul) tienen valores bajos de PC1 y, por lo tanto, se concentran a la izquierda de la parcela, en el lado opuesto de los artículos vegetales (naranja). Entre las carnes, los artículos de mariscos (azul oscuro) tienen un contenido de grasa más bajo, por lo que tienen valores de PC2 más bajos y están en la parte inferior de la parcela. Varios artículos vegetarianos no frondosos (naranja oscuro), que tienen un menor contenido de vitamina C, también tienen valores más bajos de PC2 y aparecen en la parte inferior.
Elección del número de componentes . Como los componentes principales se derivan de las variables existentes, la información disponible para diferenciar los puntos de datos está limitada por la cantidad de variables con las que comienza. Por lo tanto, el PCA anterior sobre los alimentos solo generó 4 componentes principales, correspondientes al número original de variables en el conjunto de datos.
Los componentes principales también están ordenados por su efectividad para diferenciar los puntos de datos, y el primer componente principal lo hace en el mayor grado. Para mantener los resultados simples y generalizables, solo se seleccionan los primeros componentes principales para su visualización y posterior análisis. El número de componentes principales a considerar está determinado por algo llamado diagrama de pantalla :
Un gráfico de pantalla muestra la efectividad decreciente de los componentes principales posteriores en la diferenciación de los puntos de datos. Una regla de oro es usar el número de componentes principales correspondientes a la ubicación de un pliegue. En la gráfica anterior, el pliegue se encuentra en el segundo componente. Esto significa que aunque tener tres o más componentes principales diferenciaría mejor los puntos de datos, esta información adicional puede no justificar la complejidad resultante de la solución. Como podemos ver en el diagrama de pantalla, los 2 principales componentes principales ya representan aproximadamente el 70% de la difusión de datos. El uso de menos componentes principales para explicar mejor la muestra de datos actual garantiza que los mismos componentes se puedan generalizar a otra muestra de datos.
Limitaciones
Maximizando la propagación . La suposición principal de PCA es que las dimensiones que revelan la mayor extensión entre los puntos de datos son las más útiles. Sin embargo, esto puede no ser cierto. Un ejemplo de contador popular es la tarea de contar panqueques dispuestos en una pila, con la masa del panqueque representando puntos de datos:
Para contar el número de panqueques, un panqueque se diferencia del siguiente a lo largo del eje vertical (es decir, la altura de la pila). Sin embargo, si la pila es corta, PCA identificaría erróneamente un eje horizontal (es decir, el diámetro de los panqueques) como un componente principal útil para nuestra tarea, ya que sería la dimensión a lo largo de la cual hay una mayor extensión.
Interpretación de componentes . Si podemos interpretar los componentes principales de la pila de panqueques, con etiquetas inteligibles como “altura de la pila” o “diámetro de panqueques”, podríamos seleccionar los componentes principales correctos para el análisis. Sin embargo, esto no suele ser el caso. Las interpretaciones de los componentes generados deben inferirse, y a veces podemos tener dificultades para explicar la combinación de variables en un componente principal.
No obstante, tener conocimientos previos de dominio podría ayudar. En nuestro ejemplo con alimentos, el conocimiento previo de las principales categorías de alimentos nos ayuda a comprender por qué las variables nutricionales se combinan de la forma en que se forman los componentes principales.
Componentes Ortogonales . Una desventaja importante de PCA es que los componentes principales que genera no deben solaparse en el espacio, también conocidos como componentes ortogonales . Esto significa que los componentes siempre se colocan a 90 grados entre sí. Sin embargo, esta suposición es restrictiva ya que las dimensiones informativas pueden no ser necesariamente ortogonales entre sí:
Para resolver esto, podemos usar una técnica alternativa llamada Análisis de componentes independientes (ICA).
ICA permite que sus componentes se superpongan en el espacio , por lo que no es necesario que sean ortogonales. En cambio, ICA prohíbe que sus componentes se superpongan en la información que contienen, con el objetivo de reducir la información mutua compartida entre los componentes. Por lo tanto, los componentes de ICA son independientes , y cada componente revela información única sobre el conjunto de datos.
Hasta ahora, la información ha sido representada por el grado de difusión de datos, con dimensiones a lo largo de las cuales los datos están más dispersos y son más informativos. Esto puede no ser siempre cierto, como se ve en el ejemplo de panqueque. Sin embargo, ICA puede superar esto teniendo en cuenta otras fuentes de información además de la difusión de datos.
Por lo tanto, ICA puede ser una técnica de respaldo para usar si sospechamos que los componentes deben derivarse en base a información más allá de la difusión de datos, o que los componentes pueden no ser ortogonales.
Conclusión
PCA es una técnica clásica para derivar variables subyacentes, reduciendo el número de dimensiones que debemos considerar en un conjunto de datos. En nuestro ejemplo anterior, pudimos visualizar el conjunto de datos de alimentos en un gráfico bidimensional, aunque originalmente tenía 4 variables. Sin embargo, PCA hace varias suposiciones, como confiar en la difusión de datos y la ortogonalidad para derivar componentes. Por otro lado, ICA no está sujeto a estos supuestos. Por lo tanto, en caso de duda, uno podría considerar ejecutar un ICA para verificar y complementar los resultados de un PCA.
Para más tutoriales legos, visite: Algobeans | La analítica se hizo intuitiva, ¡no las matemáticas!