El mayor problema con la clasificación de uno contra todos es el desequilibrio de clase.
Considere un problema de clasificación binaria con dos clases: A y B. Suponga que tenemos una situación en la que la clase A representa el 95% de los datos y las muestras de la clase B ocurren solo en el 5% restante de los casos. Ahora piense en un clasificador entrenado en estos datos. Este clasificador podría predecir que el 100% de los datos provienen de la clase A y aún así escapar con una precisión de predicción del 95%. Para ponerlo en una perspectiva diferente, no hay suficientes muestras de clase B para comprender de manera concluyente cuándo clasificar una nueva muestra como clase B.
Este es un caso clásico de lo que se conoce como un desequilibrio de clase o una distribución sesgada. Los clasificadores luchan para manejar los desequilibrios de clase.
- ¿Cuál es el papel de una capa totalmente conectada en una red neuronal profunda?
- ¿Cuál es la diferencia entre la taxonomía automática y la generación de clasificación?
- ¿Debo ir al análisis de datos o al aprendizaje automático?
- ¿Qué son los algoritmos del sistema de recomendación? ¿Y cómo implementar en Java?
- ¿Son las redes neuronales artificiales la única forma de establecer un aprendizaje profundo?
Ahora para responder a su pregunta, considere un problema de clasificación donde tenemos 5 clases. El escenario más equilibrado es si hay un número igual de muestras de cada clase, es decir, cada clase constituye el 20% de los datos. Cuando haces una clasificación de uno contra todos, conviertes el problema en 5 problemas de clasificación binaria. ¿Que pasa ahora? En cada uno de los 5 casos, termina con una distribución de 20-80 (surge un desequilibrio de clase). Aunque sus datos iniciales estaban equilibrados, convertirlos en un problema de uno contra todos resultó en un desequilibrio. Esta situación no es tan mala como el ejemplo 95-5 discutido anteriormente pero, sin embargo, sigue siendo un problema. Las cosas se vuelven más difíciles cuando tienes más clases o peor, si sus distribuciones están muy sesgadas.