¿El submuestreo de un entrenamiento desequilibrado es una buena idea cuando los datos del mundo real, usaré mi clasificador, también estarán desequilibrados?

Depende del algoritmo que esté utilizando y de la métrica para la que esté intentando optimizar.

Si está tratando de optimizar la pérdida de 0-1 y los datos están extremadamente desequilibrados, entonces adivinar la clase más común es una estrategia difícil de superar. Por lo tanto, no querrá reequilibrar los datos en ese escenario.

Si está tratando de optimizar algo más sofisticado como ROC-AUC, entonces debe evitar que el clasificador simplemente se convierta en la clase más común. La mejor manera de hacerlo depende del tipo de clasificador.

En mi experiencia, volver a pesar la función de pérdida tiende a funcionar mejor para clasificadores lineales como SGD en ese caso.

Los bosques aleatorios son extremadamente sensibles al desequilibrio de clase y siempre vuelvo a equilibrar. No he encontrado que volver a pesar sea efectivo. Submuestrear la clase común produce mejores resultados que sobremuestrear la clase poco común. Si su implementación de RF lo admite y los datos de capacitación son escasos, es mejor realizar un submuestreo a nivel de árbol individual: entrenar en todo el conjunto de datos no balanceados, pero tomar una muestra equilibrada para entrenar cada árbol. El paquete randomForest estándar para R es el único paquete RF de código abierto que conozco que admite esto.

Related Content

¿Cómo se puede comparar Big data con Machine Learning?

¿Qué debo aprender en Data Science para ayudar a mi startup?

¿Dónde puedo aprender sobre los conceptos básicos de la inteligencia artificial?

¿Qué piensan los pequeños equipos de ciencia de datos sobre la plataforma Dato y el pensamiento de Carlos Guestrin detrás de la democratización del aprendizaje automático?

¿Cuáles son los mejores marcos de implementación (DL4J, Theano, TensorFlow, etc.) para máquinas de Boltzmann restringidas?

¿Cómo aplicamos el algoritmo de agrupamiento k-means para datos mixtos numéricos y categóricos?

Cómo pensar acerca de la idea de que eventualmente la inteligencia artificial avanzará hasta el punto en que las computadoras son más inteligentes que los humanos

Yo diría que sí.

El objetivo del sobremuestreo es evitar el sesgo que surge de las aproximaciones del problema que está resolviendo.

Se sabe que los SVM funcionan mal para las clases desequilibradas:

SVM: hiperplano de separación para clases desequilibradas

Hay varias soluciones

agregar balance de clase
agregar pesos de instancia
agregue información al problema usando LUPI / SVM +, o diga con algún Prior Bayesiano

SVM + / LUPI: Aprendizaje utilizando información privilegiada

Muchos algoritmos de aprendizaje automático, como los SVM, son demostrablemente correctos, pero solo bajo condiciones como una separación perfecta. Cuando los datos no son separables, el SVM requiere un término flojo y la optimización de la restricción tiene que ser relajada para ser resuelta.

Entonces, lo que realmente estamos resolviendo es “una optimización SVM de margen blando sin restricciones, que es un límite superior convexo para el problema [de la optimización real]” [vea el blog más arriba]

Para evaluar el clasificador de sesgo en el, puede crear un conjunto de reserva equilibrado y estudiar el rendimiento en cada clase.

Daniel Mahler

More Interesting

¿Dónde puedo encontrar los mejores tutoriales de aprendizaje automático como principiante?

¿Cuáles son los mejores libros de aprendizaje automático para principiantes?

Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

¿Qué debo leer para desarrollar un rastreador web que raspe un subconjunto de Internet y me brinde los enlaces de los sitios web que son tiendas de abarrotes?

¿Es cierto que las Redes Adversarias Generativas (GAN) aprenden la función de pérdida automáticamente, y si es así, cómo?

Cómo visualizar un clasificador durante su entrenamiento

¿Cómo funciona la extracción de características en el procesamiento de imágenes?

En la clasificación binaria, ¿es una buena práctica siempre sobre / submuestrear su conjunto de datos para tener un número idéntico de muestras de las dos clases?

¿Es un análisis de regresión múltiple más útil / perspicaz para la relación entre IV y DV que un ANOVA?

¿Tener un conocimiento profundo del aprendizaje por refuerzo cambia su perspectiva hacia la vida? ¿Cómo?

Cómo elegir el conjunto de validación para poder representar mejor el conjunto de prueba

¿Cuáles son las principales diferencias entre la teoría de juegos y el aprendizaje por refuerzo?

¿Por qué es popular el aprendizaje profundo?

¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

¿Cuáles son las características de HOG en visión artificial en términos simples?

Web Analytics