¿Qué es un conjunto de datos desequilibrado?

El conjunto de datos desequilibrados es relevante principalmente en el contexto del aprendizaje automático supervisado que involucra dos o más clases.

El desequilibrio significa que la cantidad de puntos de datos disponibles para diferentes clases es diferente:
Si hay dos clases, los datos equilibrados significarían 50% de puntos para cada una de las clases. Para la mayoría de las técnicas de aprendizaje automático, un pequeño desequilibrio no es un problema . Por lo tanto, si hay un 60% de puntos para una clase y un 40% para la otra clase, no debería causar una degradación significativa del rendimiento. Solo cuando el desequilibrio de clase es alto, por ejemplo, 90% de puntos para una clase y 10% para la otra, los criterios de optimización estándar o las medidas de rendimiento pueden no ser tan efectivos y necesitarían modificación.

Un ejemplo típico de datos desequilibrados se encuentra en el problema de clasificación de correo electrónico donde los correos electrónicos se clasifican en jamón o spam. El número de correos electrónicos no deseados suele ser menor que el número de correos electrónicos relevantes. Entonces, usar la distribución original de dos clases conduce a un conjunto de datos desequilibrado.

Usar la precisión como una medida de rendimiento para conjuntos de datos altamente desequilibrados no es una buena idea. Por ejemplo, si el 90% de los puntos pertenecen a la clase verdadera en un problema de clasificación binaria, una predicción predeterminada de verdadero para todos los puntos de datos conduce a un clasificador que es 90% exacto, aunque el clasificador no haya aprendido nada sobre el problema de clasificación en ¡mano!

Cuando la distribución de las clases presentes en un dato no es uniforme, el número de instancias de una (s) clase (s) supera significativamente el número de instancias de otra (s) clase (s) conduce a un desequilibrio de clase. Esta situación surge debido al hecho de que la clase minoritaria puede ser rara (por ejemplo, una persona que sufre una caída), difícil de obtener (por ejemplo, datos de mal funcionamiento de la máquina) o poco frecuente (por ejemplo, datos de terremotos). Este tipo de situación puede manejarse utilizando técnicas basadas en sobremuestreo de clase minoritaria, clasificación de una clase, etc.

Considere un problema de dos clases. Si el conjunto de datos es tal que tiene la misma cantidad de datos de cada clase (es decir, 50% de una clase y 50% de la otra), entonces el conjunto de datos está equilibrado.

En todos los demás casos, no está equilibrado.

Un ejemplo típico para la clasificación de datos desequilibrados, como lo menciona Pankaj, sería la identificación de correos electrónicos no deseados.