El conjunto de datos desequilibrados es relevante principalmente en el contexto del aprendizaje automático supervisado que involucra dos o más clases.
El desequilibrio significa que la cantidad de puntos de datos disponibles para diferentes clases es diferente:
Si hay dos clases, los datos equilibrados significarían 50% de puntos para cada una de las clases. Para la mayoría de las técnicas de aprendizaje automático, un pequeño desequilibrio no es un problema . Por lo tanto, si hay un 60% de puntos para una clase y un 40% para la otra clase, no debería causar una degradación significativa del rendimiento. Solo cuando el desequilibrio de clase es alto, por ejemplo, 90% de puntos para una clase y 10% para la otra, los criterios de optimización estándar o las medidas de rendimiento pueden no ser tan efectivos y necesitarían modificación.
Un ejemplo típico de datos desequilibrados se encuentra en el problema de clasificación de correo electrónico donde los correos electrónicos se clasifican en jamón o spam. El número de correos electrónicos no deseados suele ser menor que el número de correos electrónicos relevantes. Entonces, usar la distribución original de dos clases conduce a un conjunto de datos desequilibrado.
- Computación paralela: ¿Cuáles son los buenos enfoques y fuentes para programar CUDA en Machine Learning con datos a gran escala?
- Cómo elegir el parámetro C para SVM
- ¿Cuál es el significado / interpretación de la varianza de validación cruzada?
- ¿Qué es el filtrado colaborativo en términos simples?
- ¿Es cierto que la cantidad de datos es, con mucho, la ventaja competitiva más importante para las empresas de aprendizaje automático (por ejemplo, en automóviles autónomos)?
Usar la precisión como una medida de rendimiento para conjuntos de datos altamente desequilibrados no es una buena idea. Por ejemplo, si el 90% de los puntos pertenecen a la clase verdadera en un problema de clasificación binaria, una predicción predeterminada de verdadero para todos los puntos de datos conduce a un clasificador que es 90% exacto, aunque el clasificador no haya aprendido nada sobre el problema de clasificación en ¡mano!