Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción La tecnología cambia la vida futura

Existen muchos métodos para realizar la reducción de dimensiones:

“1. Valores perdidos: al explorar datos, si encontramos valores perdidos, ¿qué hacemos? Nuestro primer paso debería ser identificar la razón y luego imputar valores perdidos / descartar variables utilizando los métodos apropiados. Pero, ¿qué pasa si tenemos demasiados valores perdidos? ¿Deberíamos imputar valores perdidos o descartar las variables?

Deberíamos preferir este último, porque no tendría muchos más detalles sobre el conjunto de datos. Además, no ayudaría a mejorar el poder del modelo. Siguiente pregunta, ¿hay algún umbral de valores faltantes para descartar una variable? Varía de un caso a otro. Si la información contenida en la variable no es tanta, puede descartar la variable si tiene más de ~ 40-50% de valores faltantes.

2. Variación baja: pensemos en un escenario en el que tenemos una variable constante (todas las observaciones tienen el mismo valor, 5) en nuestro conjunto de datos. ¿Crees que puede mejorar el poder del modelo? Por supuesto que NO, porque tiene una varianza cero. En caso de un alto número de dimensiones, deberíamos descartar las variables que tienen una varianza baja en comparación con otras porque estas variables no explicarán la variación en las variables objetivo.

3. Árboles de decisión: se puede utilizar como una solución definitiva para abordar múltiples desafíos, como valores perdidos, valores atípicos e identificación de variables significativas.

4. Bosque aleatorio: similar al árbol de decisión es el bosque aleatorio. También podemos usar la importancia de la función incorporada que proporcionan los bosques aleatorios para seleccionar un subconjunto más pequeño de funciones de entrada. Solo tenga cuidado de que los bosques aleatorios tengan una tendencia a sesgarse hacia las variables que tienen más no. de valores distintos, es decir, favorecen las variables numéricas sobre los valores binarios / categóricos.

5. Alta correlación: las dimensiones que exhiben una mayor correlación pueden reducir el rendimiento del modelo. Además, no es bueno tener múltiples variables de información o variación similares, también conocidas como “Multicolinealidad”. Puede usar la matriz de correlación de Pearson (variables continuas) o policóricas (variables discretas) para identificar las variables con alta correlación y seleccionar una de ellas usando VIF (Factor de inflación de varianza). Las variables que tienen un valor más alto (VIF> 5) se pueden descartar.

6. Eliminación de características hacia atrás: en este método, comenzamos con todas las n dimensiones. Calcule la suma del cuadrado de error (SSR) después de eliminar cada variable (n veces). Luego, identificar las variables cuya eliminación ha producido el menor aumento en el SSR y finalmente eliminarlo, dejándonos con funciones de entrada n-1 . Repita este proceso hasta que no se puedan descartar otras variables.
Al revés de esto, podemos usar el método de ” Selección de funciones hacia adelante “. En este método, seleccionamos una variable y analizamos el rendimiento del modelo agregando otra variable. Aquí, la selección de variables se basa en una mejora mayor en el rendimiento del modelo.

7. Análisis factorial: Digamos que algunas variables están altamente correlacionadas. Estas variables se pueden agrupar por sus correlaciones, es decir, todas las variables en un grupo particular pueden estar altamente correlacionadas entre sí, pero tienen una baja correlación con las variables de otros grupos. Aquí cada grupo representa una sola construcción o factor subyacente. Estos factores son pequeños en comparación con una gran cantidad de dimensiones. Sin embargo, estos factores son difíciles de observar. Básicamente existen dos métodos para realizar análisis factoriales:

EFA (Análisis Factorial Exploratorio)
CFA (análisis factorial confirmatorio)

8. Análisis de componentes principales (PCA): en esta técnica, las variables se transforman en un nuevo conjunto de variables, que son una combinación lineal de variables originales. Este nuevo conjunto de variables se conoce como componentes principales. Se obtienen de tal manera que el primer componente principal representa la mayor parte de la variación posible de los datos originales, después de lo cual cada componente siguiente tiene la mayor variación posible.

El segundo componente principal debe ser ortogonal al primer componente principal. En otras palabras, hace todo lo posible para capturar la varianza en los datos que no es capturada por el primer componente principal. Para el conjunto de datos bidimensional, solo puede haber dos componentes principales. Los componentes principales son sensibles a la escala de medición, ahora para solucionar este problema siempre debemos estandarizar las variables antes de aplicar PCA. La aplicación de PCA a su conjunto de datos pierde su significado. Si la capacidad de interpretación de los resultados es importante para su análisis, PCA no es la técnica adecuada para su proyecto “.

Fuente: Guía para principiantes para aprender técnicas de reducción de dimensiones