¿Cuáles son los problemas con el enfoque de clasificación uno contra todos?

El mayor problema con la clasificación de uno contra todos es el desequilibrio de clase.

Considere un problema de clasificación binaria con dos clases: A y B. Suponga que tenemos una situación en la que la clase A representa el 95% de los datos y las muestras de la clase B ocurren solo en el 5% restante de los casos. Ahora piense en un clasificador entrenado en estos datos. Este clasificador podría predecir que el 100% de los datos provienen de la clase A y aún así escapar con una precisión de predicción del 95%. Para ponerlo en una perspectiva diferente, no hay suficientes muestras de clase B para comprender de manera concluyente cuándo clasificar una nueva muestra como clase B.

Este es un caso clásico de lo que se conoce como un desequilibrio de clase o una distribución sesgada. Los clasificadores luchan para manejar los desequilibrios de clase.

Ahora para responder a su pregunta, considere un problema de clasificación donde tenemos 5 clases. El escenario más equilibrado es si hay un número igual de muestras de cada clase, es decir, cada clase constituye el 20% de los datos. Cuando haces una clasificación de uno contra todos, conviertes el problema en 5 problemas de clasificación binaria. ¿Que pasa ahora? En cada uno de los 5 casos, termina con una distribución de 20-80 (surge un desequilibrio de clase). Aunque sus datos iniciales estaban equilibrados, convertirlos en un problema de uno contra todos resultó en un desequilibrio. Esta situación no es tan mala como el ejemplo 95-5 discutido anteriormente pero, sin embargo, sigue siendo un problema. Las cosas se vuelven más difíciles cuando tienes más clases o peor, si sus distribuciones están muy sesgadas.

More Interesting

¿Cómo afectan la ciencia de datos, los grandes datos y el aprendizaje automático al campo de la economía?

¿Cuáles son algunos temas de investigación matemáticamente rigurosos en aprendizaje automático y aprendizaje profundo en la actualidad?

¿Debo aplicar PCA antes o después de la selección de funciones?

Cómo lidiar con un conjunto de datos duro que no me da buenos resultados en la validación del modelo

¿Qué algoritmos de aprendizaje automático utilizan servicios como wit.ai y api.ai?

¿En qué se diferencia el aprendizaje profundo de la propagación por error (error)?

¿Las redes neuronales convolucionales construyen simetrías locales o globales?

¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?

¿Cuándo y por qué un clasificador Bayes ingenuo es una opción mejor / peor que un clasificador forestal aleatorio?

¿Por qué la precisión del entrenamiento de la red CNN aumenta rápidamente cuando elijo un tamaño de lote relativamente más pequeño?

¿Es el enlace neuronal una tecnología que podría funcionar?

¿Por qué los clasificadores Naive Bayes se consideran relativamente inmunes al sobreajuste?

¿Qué se usa en autos sin conductor, aprendizaje automático o aprendizaje profundo?

¿Cuál es la diferencia entre Internet de las cosas y el aprendizaje automático y cuál debo aprender primero?

¿Tiene sentido usar redes neuronales convolucionales en la identificación biométrica humana basada en ECG?