En la clasificación binaria, ¿es una buena práctica siempre sobre / submuestrear su conjunto de datos para tener un número idéntico de muestras de las dos clases?

No es a prueba completa, pero seguramente vale la pena intentarlo.

Digamos que uno se está preparando para el Examen de Física y el libro de texto del curso que tengo está roto y falta los últimos 2 capítulos.

¿Cual es mejor? ¿Se está preparando a partir del mismo libro de texto del curso o buscando un nuevo libro diferente que tenga una lista similar de todos los capítulos?

En términos más concretos:

  • No es a prueba completa, porque los datos de capacitación submuestreados o sobremuestreados (por clase) significan que ahora hay una brecha entre lo que (distribución) el modelo está capacitado para hacer bien y lo que (distribución) esperamos que haga bien en
  • Vale la pena intentarlo, simplemente porque sin él, algo puede ver muy poco de la clase más pequeña para aprenderlo. La validación de datos no muestreados sigue siendo la estimación imparcial de cuál de los 2 modelos funciona mejor en el examen final.
  • En los casos en que la clase más pequeña se define estrechamente en las características disponibles, el desequilibrio puede ser un problema mucho menor de todos modos