¿Qué es un conjunto de datos desequilibrado?

El conjunto de datos desequilibrados es relevante principalmente en el contexto del aprendizaje automático supervisado que involucra dos o más clases.

El desequilibrio significa que la cantidad de puntos de datos disponibles para diferentes clases es diferente:
Si hay dos clases, los datos equilibrados significarían 50% de puntos para cada una de las clases. Para la mayoría de las técnicas de aprendizaje automático, un pequeño desequilibrio no es un problema . Por lo tanto, si hay un 60% de puntos para una clase y un 40% para la otra clase, no debería causar una degradación significativa del rendimiento. Solo cuando el desequilibrio de clase es alto, por ejemplo, 90% de puntos para una clase y 10% para la otra, los criterios de optimización estándar o las medidas de rendimiento pueden no ser tan efectivos y necesitarían modificación.

Un ejemplo típico de datos desequilibrados se encuentra en el problema de clasificación de correo electrónico donde los correos electrónicos se clasifican en jamón o spam. El número de correos electrónicos no deseados suele ser menor que el número de correos electrónicos relevantes. Entonces, usar la distribución original de dos clases conduce a un conjunto de datos desequilibrado.

Usar la precisión como una medida de rendimiento para conjuntos de datos altamente desequilibrados no es una buena idea. Por ejemplo, si el 90% de los puntos pertenecen a la clase verdadera en un problema de clasificación binaria, una predicción predeterminada de verdadero para todos los puntos de datos conduce a un clasificador que es 90% exacto, aunque el clasificador no haya aprendido nada sobre el problema de clasificación en ¡mano!

Análisis de datosAprendizaje automáticoConjuntos de datosMinería de datos

¿Cómo puedo entrenar a un clasificador de imágenes para detectar mi propia cara de un conjunto de datos de 16,000 imágenes?

¿Cómo se usa el aprendizaje automático en DevOps?

¿Siguen siendo relevantes los enfoques simbólicos de IA después de los recientes éxitos del aprendizaje profundo?

Muchas empresas hablan de 'big data' y 'aprendizaje profundo', y siempre ponen estas etiquetas en sus productos. ¿Cuál es el verdadero significado detrás de esto?

Cómo implementar un algoritmo de fijación de precios dinámico en Hadoop

¿A quién demuestra que los núcleos radiales son núcleos válidos? ¿Cómo se muestra esto mediante la integración de características?

Cuando la distribución de las clases presentes en un dato no es uniforme, el número de instancias de una (s) clase (s) supera significativamente el número de instancias de otra (s) clase (s) conduce a un desequilibrio de clase. Esta situación surge debido al hecho de que la clase minoritaria puede ser rara (por ejemplo, una persona que sufre una caída), difícil de obtener (por ejemplo, datos de mal funcionamiento de la máquina) o poco frecuente (por ejemplo, datos de terremotos). Este tipo de situación puede manejarse utilizando técnicas basadas en sobremuestreo de clase minoritaria, clasificación de una clase, etc.

Nandhini Mathivanan

Considere un problema de dos clases. Si el conjunto de datos es tal que tiene la misma cantidad de datos de cada clase (es decir, 50% de una clase y 50% de la otra), entonces el conjunto de datos está equilibrado.

En todos los demás casos, no está equilibrado.

Un ejemplo típico para la clasificación de datos desequilibrados, como lo menciona Pankaj, sería la identificación de correos electrónicos no deseados.

Nandhini Mathivanan

More Interesting

¿Dónde puedo descargar datos de proyecto disponibles públicamente para entrenar mi red neuronal?

¿Cuáles son algunas buenas charlas sobre fragmentación?

¿Qué tan profundo es el aprendizaje profundo?

¿Qué son los modelos mixtos en términos simples?

¿Cómo se hace la inferencia en una red neuronal con capas de normalización por lotes?

¿Cómo se debe contactar a los autores de los libros blancos (y cómo hacer que respondan)?

¿Cómo entrenamos un clasificador para el cual solo tenemos datos de entrenamiento positivos (no hay datos negativos o sin etiquetar disponibles)?

¿Cómo utiliza Quora el aprendizaje automático en 2015?

Cómo diferenciar entre características globales y características locales en una imagen

¿Qué es el algoritmo de cambio medio?