Cómo encontrar qué variable de característica es más predictiva en un problema de clasificación binaria

Hay muchas opciones:

Si utiliza el Algoritmo del árbol de decisión para el problema de clasificación, encontramos Ganancia de información / Relación de Gini. Este valor especifica la reducción de la incertidumbre. El valor más alto de las medidas especificadas para una variable indica una mayor reducción de la incertidumbre, por lo que son más importantes.

Si aplica un bosque aleatorio en cada paso, sigue agregando y eliminando variables para obtener las variables más predictivas.

La salida del bosque aleatorio le da importancia variable.

Otros métodos para medir el poder predictivo de las variables son:

-WOE (peso de la evidencia)

Información Valor Poder predictivo

0.02 a 0.1 Pronosticador débil

0.1 a 0.3 predictor medio

0.3 a 0.5 predictor fuerte

> 0.5 Sospechoso o demasiado bueno para ser verdad

– Selección sabia de pasos (adelante, atrás o ambos)

Related Content

¿Cómo puedo aprender ciencia de datos?

¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento?

¿Cuál es la mejor tarjeta gráfica para tareas de aprendizaje automático / Big Data?

¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?

¿Cuál es la explicación de la fórmula de compensación de Bias Variance?

¿Cuál es el papel de la Inteligencia Artificial en las redes sociales?

¿Cuáles son algunas tecnologías futuras increíbles?

Esta debería ser una solución sencilla. Aplique la regresión de línea y obtendrá la función que tiene mejor correlación con la clasificación.

Vijay Nadadur

More Interesting

Como dicen, cada función posible se puede modelar con una percepción de 2 capas, en teoría, ¿se puede modelar una función del universo en una red neuronal con 2 o 3 capas de profundidad?

¿Podría el aprendizaje automático erradicar el cáncer?

¿Es más fácil conseguir un trabajo de aprendizaje automático con maestros de una buena universidad que si solo eres autodidacta?

¿Por qué se utilizan imágenes en escala de grises para el análisis de componentes principales?

¿Cuál es la diferencia entre la retropropagación y la retropropagación a través del tiempo?

¿Qué campos de la robótica tienen mucho espacio para la investigación (mucho antes de la madurez)?

¿Qué matemáticas se necesitan para este curso de aprendizaje automático?

Algunas cosas "fueron modeladas como procesos de Poisson". ¿Qué quieren decir con eso?

¿Qué algoritmo puedo implementar para hacer una reducción de dimensión con restricción no negativa? (PCA se asignará al espacio negativo)

Procesamiento del lenguaje natural: ¿Cuáles son algunos métodos efectivos para detectar / calificar cadenas que pueden contener palabras profanas / ofensivas?

¿Cuál es el principio del aprendizaje profundo?

¿Existe una brecha entre las estadísticas y las comunidades de aprendizaje automático? Si es así, ¿por qué?

¿Las estadísticas necesitan un cambio de marca en respuesta a la ciencia de datos y el aprendizaje automático, que están superando las estadísticas en términos de relevancia? ¿Por qué o por qué no?

Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas

¿Cuál es la importancia del análisis de componentes principales (PCA) en el modelado predictivo?

Web Analytics