Debido a que las redes neuronales (y los modelos de aprendizaje automático en general) extrapolan una regla de clasificación del conjunto de entrenamiento que tienen como si fuera una muestra representativa de su universo.
Por lo tanto, si tienes:
- 51% tipo A
- 34% tipo B
- 15% tipo C
Entonces el modelo “aprenderá” que hay una mayor probabilidad de que un ejemplo sea A que C.
- ¿Por qué usamos convolución en redes neuronales?
- ¿El submuestreo de un entrenamiento desequilibrado es una buena idea cuando los datos del mundo real, usaré mi clasificador, también estarán desequilibrados?
- Cómo aprender el aprendizaje automático desde el nivel cero
- ¿Dónde puedo obtener un conjunto de datos de notas de suicidio para fines de aprendizaje automático?
- Si hoy existiera una computadora cuántica, ¿qué pasaría con la IA / aprendizaje automático / aprendizaje profundo? ¿En qué se traduciría esto para las empresas / industrias?
Dependiendo de lo que esté haciendo, esto puede ser un problema obviamente. Para solucionarlo, puede:
- Encuentre más ejemplos de tipo C y agréguelos al conjunto de entrenamiento.
- Agregue duplicados de tipo C en su conjunto de entrenamiento.
- Cree sus lotes (suponiendo que está entrenando con lotes) con sus propias proporciones.
Pero antes de intentarlo, debe preguntarse si el conjunto de entrenamiento realmente debe ser equilibrado.