Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción

Existen muchos métodos para realizar la reducción de dimensiones:

“1. Valores perdidos: al explorar datos, si encontramos valores perdidos, ¿qué hacemos? Nuestro primer paso debería ser identificar la razón y luego imputar valores perdidos / descartar variables utilizando los métodos apropiados. Pero, ¿qué pasa si tenemos demasiados valores perdidos? ¿Deberíamos imputar valores perdidos o descartar las variables?

Deberíamos preferir este último, porque no tendría muchos más detalles sobre el conjunto de datos. Además, no ayudaría a mejorar el poder del modelo. Siguiente pregunta, ¿hay algún umbral de valores faltantes para descartar una variable? Varía de un caso a otro. Si la información contenida en la variable no es tanta, puede descartar la variable si tiene más de ~ 40-50% de valores faltantes.

2. Variación baja: pensemos en un escenario en el que tenemos una variable constante (todas las observaciones tienen el mismo valor, 5) en nuestro conjunto de datos. ¿Crees que puede mejorar el poder del modelo? Por supuesto que NO, porque tiene una varianza cero. En caso de un alto número de dimensiones, deberíamos descartar las variables que tienen una varianza baja en comparación con otras porque estas variables no explicarán la variación en las variables objetivo.

3. Árboles de decisión: se puede utilizar como una solución definitiva para abordar múltiples desafíos, como valores perdidos, valores atípicos e identificación de variables significativas.

4. Bosque aleatorio: similar al árbol de decisión es el bosque aleatorio. También podemos usar la importancia de la función incorporada que proporcionan los bosques aleatorios para seleccionar un subconjunto más pequeño de funciones de entrada. Solo tenga cuidado de que los bosques aleatorios tengan una tendencia a sesgarse hacia las variables que tienen más no. de valores distintos, es decir, favorecen las variables numéricas sobre los valores binarios / categóricos.

5. Alta correlación: las dimensiones que exhiben una mayor correlación pueden reducir el rendimiento del modelo. Además, no es bueno tener múltiples variables de información o variación similares, también conocidas como “Multicolinealidad”. Puede usar la matriz de correlación de Pearson (variables continuas) o policóricas (variables discretas) para identificar las variables con alta correlación y seleccionar una de ellas usando VIF (Factor de inflación de varianza). Las variables que tienen un valor más alto (VIF> 5) se pueden descartar.

6. Eliminación de características hacia atrás: en este método, comenzamos con todas las n dimensiones. Calcule la suma del cuadrado de error (SSR) después de eliminar cada variable (n veces). Luego, identificar las variables cuya eliminación ha producido el menor aumento en el SSR y finalmente eliminarlo, dejándonos con funciones de entrada n-1 . Repita este proceso hasta que no se puedan descartar otras variables.
Al revés de esto, podemos usar el método de ” Selección de funciones hacia adelante “. En este método, seleccionamos una variable y analizamos el rendimiento del modelo agregando otra variable. Aquí, la selección de variables se basa en una mejora mayor en el rendimiento del modelo.

7. Análisis factorial: Digamos que algunas variables están altamente correlacionadas. Estas variables se pueden agrupar por sus correlaciones, es decir, todas las variables en un grupo particular pueden estar altamente correlacionadas entre sí, pero tienen una baja correlación con las variables de otros grupos. Aquí cada grupo representa una sola construcción o factor subyacente. Estos factores son pequeños en comparación con una gran cantidad de dimensiones. Sin embargo, estos factores son difíciles de observar. Básicamente existen dos métodos para realizar análisis factoriales:

  • EFA (Análisis Factorial Exploratorio)
  • CFA (análisis factorial confirmatorio)

8. Análisis de componentes principales (PCA): en esta técnica, las variables se transforman en un nuevo conjunto de variables, que son una combinación lineal de variables originales. Este nuevo conjunto de variables se conoce como componentes principales. Se obtienen de tal manera que el primer componente principal representa la mayor parte de la variación posible de los datos originales, después de lo cual cada componente siguiente tiene la mayor variación posible.

El segundo componente principal debe ser ortogonal al primer componente principal. En otras palabras, hace todo lo posible para capturar la varianza en los datos que no es capturada por el primer componente principal. Para el conjunto de datos bidimensional, solo puede haber dos componentes principales. Los componentes principales son sensibles a la escala de medición, ahora para solucionar este problema siempre debemos estandarizar las variables antes de aplicar PCA. La aplicación de PCA a su conjunto de datos pierde su significado. Si la capacidad de interpretación de los resultados es importante para su análisis, PCA no es la técnica adecuada para su proyecto “.

Fuente: Guía para principiantes para aprender técnicas de reducción de dimensiones

Sugeriría el método más avanzado llamado modelo generalizado de bajo rango. Puede lidiar con valores perdidos y es algo similar a PCA, excepto que puede manejar datos categóricos. Debe verificar la conversación de oxdata en youtube para tener una idea de cómo funciona este algoritmo, y también puede implementarlo en R / Python usando el paquete h2o.

More Interesting

¿Debo aprender el aprendizaje automático y el desarrollo de aplicaciones de Android simultáneamente? En caso afirmativo, ¿a qué lenguaje (s) de programación debo recurrir?

¿Cómo deciden las personas en aprendizaje profundo qué artículos no leer?

¿Cómo funcionan las representaciones distribuidas de escasez fija defendidas e implementadas por Numenta?

¿Cómo puede un estado en el aprendizaje por refuerzo tener dos valores? Por ejemplo, como en el blackjack donde el as es 1 u 11.

¿Qué lenguaje de programación debería elegir junto a Python si estoy interesado en el aprendizaje automático?

¿Existe una conexión profunda entre el aprendizaje por propagación hacia atrás y la regla de Hebb?

¿Cómo se compara Orange con Tableau?

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?

¿El aprendizaje automático no supervisado basado en la agrupación de datos también determina automáticamente la cantidad de agrupaciones?

Cómo saber si una startup tecnológica que ofrece soluciones empresariales que utilizan el aprendizaje exclusivo en profundidad está tratando de estafar a mi empresa

¿Qué tan diferente es el aprendizaje automático de las estadísticas?

¿Cuáles son las intersecciones entre los campos de la ciencia de datos y los sistemas complejos?

¿Cuáles son las aplicaciones del aprendizaje automático en optometría y ciencias de la visión?

¿Cuáles son algunos temas de investigación matemáticamente rigurosos en aprendizaje automático y aprendizaje profundo en la actualidad?

Cuando implementa algoritmos de aprendizaje automático, ¿cómo puede saber si su algoritmo es el enfoque incorrecto, si necesita ajustar los parámetros o si hay un error en su código?