En la clasificación binaria, ¿es una buena práctica siempre sobre / submuestrear su conjunto de datos para tener un número idéntico de muestras de las dos clases?

No es a prueba completa, pero seguramente vale la pena intentarlo.

Digamos que uno se está preparando para el Examen de Física y el libro de texto del curso que tengo está roto y falta los últimos 2 capítulos.

¿Cual es mejor? ¿Se está preparando a partir del mismo libro de texto del curso o buscando un nuevo libro diferente que tenga una lista similar de todos los capítulos?

En términos más concretos:

No es a prueba completa, porque los datos de capacitación submuestreados o sobremuestreados (por clase) significan que ahora hay una brecha entre lo que (distribución) el modelo está capacitado para hacer bien y lo que (distribución) esperamos que haga bien en
Vale la pena intentarlo, simplemente porque sin él, algo puede ver muy poco de la clase más pequeña para aprenderlo. La validación de datos no muestreados sigue siendo la estimación imparcial de cuál de los 2 modelos funciona mejor en el examen final.
En los casos en que la clase más pequeña se define estrechamente en las características disponibles, el desequilibrio puede ser un problema mucho menor de todos modos

Aprendizaje automáticoClasificaciónConjuntos de datos

Related Content

Cómo implementar un modelo entrenado de TensorFlow (solo parte de propaganda directa) en CPP puro

¿Cómo debo usar máquinas restringidas de Boltzmann para el filtrado colaborativo?

¿Qué es el aprendizaje automático en tiempo real?

Cómo hacer frente al aprendizaje de la ciencia de datos

¿Cuál es el libro recomendado sobre 'plasticidad neuronal' para informáticos, programadores o profesionales de aprendizaje profundo?

¿Cuál crees que es la razón detrás de la asociación de Microsoft y Amazon en la tecnología de red neuronal llamada ‘Gluon’?

¿Cuál es el proyecto más simple que se puede hacer en una duración de 20 días usando Inteligencia Artificial?

More Interesting

¿Cómo podemos saber si una heurística es mejor que otra sin ejecutarla?

¿Cuáles son los mejores recursos disponibles en línea para aprender a pensar en diseño?

¿Qué temas del conjunto de datos son buenos para interactuar?

¿Cómo se utiliza el aprendizaje automático en el análisis de sentimientos?

¿Cuáles son las características del texto en la minería de datos?

¿Hay tutoriales o trabajos de investigación sobre la presentación de problemas matemáticos como pseudolenguaje al algoritmo de PNL?

¿La retropropagación de red neuronal de convolución utiliza un algoritmo en línea o un algoritmo por lotes?

¿Cuáles son los mejores libros de aprendizaje automático para principiantes?

¿Qué se entiende por una solución de referencia en el aprendizaje automático?

¿Cuál es la diferencia entre regresión, clasificación y agrupamiento en el aprendizaje automático?

¿Qué parte del autoencoder realmente representa las características aprendidas?

En la extracción de relaciones (PNL), ¿cuál es la diferencia entre la extracción de relaciones supervisada, semi-supervisada y no supervisada?

¿Existe una buena herramienta de aprendizaje de idiomas?

¿A qué se refiere el concepto de sesgo de presentación-retroalimentación en el contexto del aprendizaje automático?

¿Cuál es la diferencia entre análisis de datos, ciencia de datos, big data y aprendizaje automático?

Web Analytics