Cómo usar un árbol de decisión para clasificar un conjunto de datos no balanceado

Existen varias estrategias para aprender de datos no balanceados.

Este documento sobre el tema debería ayudarlo (Una idea de la clasificación con datos desequilibrados: resultados empíricos y tendencias actuales sobre el uso de características intrínsecas de datos (PDF) – Semantic Scholar), pero trataré de resumir algunas estrategias a continuación:

Submuestreo : elimine muestras de la clase mayoritaria (clase con más muestras) utilizando un algoritmo de submuestreo. Ejemplos: Selección unilateral (OSS), vecinos más cercanos editados (ENN), enlaces Tomek, muestreo aleatorio …
Sobremuestreo : genera nuevas muestras de la clase minoritaria (clase con pocas muestras) utilizando un algoritmo de sobremuestreo. Ejemplos: SMOTE , BorderlineSMOTE, SPIDER, Random Resampling …
Aprendizaje sensible al costo : cambie el algoritmo de creación del árbol de decisión para que las clasificaciones erróneas de las muestras de clases minoritarias tengan un costo más alto que las clasificaciones erróneas de las muestras de clases mayoritarias.
Ensemble Learning : en lugar de usar un solo árbol de decisión, intente usar varios árboles de decisión. Echa un vistazo al algoritmo de ensacado, bosques aleatorios, clasificadores de árboles adicionales, Iterative-Classifier-Selection-Bagging (ICSBagging) …
Combinación : Combina estrategias de submuestreo, sobremuestreo y aprendizaje conjunto. La mayoría de los métodos de aprendizaje de vanguardia para aprender de datos desequilibrados utilizan una combinación de diferentes estrategias. Elija el que sea mejor para usted.

Además, existe este paquete de python: fmfn / UnbalancedDataset para aprender de datos no balanceados en python. Le proporcionará un acceso fácil a varias estrategias para que pueda evaluar cuál es la mejor para usted. Al evaluar, recuerde utilizar una métrica adecuada, como el Área bajo la curva ROC (AUC).

Related Content

¿Cuál es el minimizador de [matemáticas] H [f] = \ sum ^ {N} _ {i = 1} \ | y ^ {(i)} - f (x_i) \ | ^ 2_ {2} + \ lambda \ | Pf \ | ^ 2 [/ math] cuando la salida es un vector?

¿Qué es la estimación de máxima verosimilitud?

¿Existe un libro de aprendizaje automático que ofrece una guía paso a paso con números reales o ejemplos numéricos en algoritmos de aprendizaje automático?

¿Cómo se puede aplicar RL (método de gradiente de política) al problema de selección de subconjunto, donde cada prueba consiste en seleccionar un subconjunto de elementos de un conjunto más grande?

¿Cómo funciona KNN?

¿Cuál es el propósito del análisis de regresión?

¿Qué algoritmo de recomendaciones es más efectivo para desarrollar un entorno de crowdsourcing y qué lenguaje de programación sugiere?

Me he encontrado con este problema muchas veces en el pasado. No estoy seguro de cuál sería la mejor solución “correcta”, pero he usado alguna forma de embolsado de árboles [1] al construir múltiples conjuntos de datos balanceados a partir de múltiples muestras aleatorias del conjunto infinito, entrenar múltiples árboles de decisión y luego ensamblar el resultados.

[1] Bootstrap agregando

También este documento puede ser útil:

http://sci2s.ugr.es/keel/pdf/alg …

Louis-Marc Leblanc

Baje uniformemente los puntos de datos de muestra de una clase hasta que su relación con la clase pequeña sea alrededor de 3: 1, entrene a su clasificador de árbol de decisión. Si desea recuperar la probabilidad calibrada en la distribución original (para fines de clasificación, no es necesario, ya que solo necesita un umbral), puede aplicar bayesiano a la salida de probabilidad del árbol de decisión.

Jason Zhang

Si este es un problema de aprendizaje supervisado (tiene un conjunto etiquetado), ¿por qué no reducir la muestra de la segunda clase hasta que las dos clases tengan proporciones comparables y capacitar al DT en eso? El clasificador aún debe generalizar para los datos de la distribución original.

William Chen

También recomiendo el paquete SMOTE en R. Aquí hay un pequeño tutorial (texto y video) de Manuel Amunategui:

SMOTE – Supersampling Rare Events in R

¡Buena suerte!

Jason Zhang

buscar en google: SMOTE: Técnica de sobremuestreo de minorías sintéticas

Louis-Marc Leblanc

More Interesting

¿Necesito normalizar mis vectores de características antes de usar Deep Learning?

¿Qué es el condicionamiento en el aprendizaje seq2seq?

¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

¿Cómo afecta su área de investigación de maestría (CS) a su carrera? ¿Y cuáles son las áreas más lucrativas?

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?

¿Se pueden usar las redes de confrontación generativas para casos no supervisados?

¿Qué es la mente profunda de Google?

¿Qué son las redes neuronales convolucionales?

Cómo usar tanto algoritmos genéticos como redes neuronales artificiales en una simulación de vida artificial

¿Cómo son los cursos en edX sobre aprendizaje automático, ingeniería artificial y robótica para el empleo?

¿Cuál es un buen lugar para comenzar a trabajar en el uso del aprendizaje automático para el modelado de riesgo de crédito?

¿Cómo se pueden usar las redes neuronales en el análisis de sentimientos árabes?

¿Hay escasez de científicos de datos?

¿Cuál es la mejor manera de combinar filtrado colaborativo y recomendaciones basadas en contenido?

Cómo guardar un modelo de red neuronal de convolución después del entrenamiento

Web Analytics