Cuando el modelo es mucho mejor en el conjunto de entrenamiento que en el conjunto de validación, memoriza ejemplos de entrenamiento individuales hasta cierto punto. De esa forma, puede predecir muy bien sus datos de entrenamiento, pero no se generaliza al problema real y, por lo tanto, falla en ejemplos no vistos. Ajustar los datos de entrenamiento demasiado bien se conoce como sobreajuste. Hay algunas cosas que puede intentar para evitar esto:
- Más datos Con millones de ejemplos de entrenamiento, es muy poco probable que su modelo se sobreajuste. Tendría que memorizar demasiados ejemplos de entrenamiento para disminuir significativamente la pérdida de entrenamiento. Además, está mostrando el mismo ejemplo solo muy pocas veces, porque hay suficientes otros datos.
- Modelo más pequeño. Un modelo menos potente podría no ser capaz de memorizar muchos ejemplos de entrenamiento, pero podría ser lo suficientemente bueno como para resolver su tarea. Si usa una red neuronal, pruebe con capas más pequeñas y menos.
- Regularización La regularización es una forma de codificar nuestros supuestos anteriores de la tarea en la tarea. Por ejemplo, podemos penalizar grandes pesos en una red neuronal porque creemos que resultan en soluciones demasiado complejas.
También preguntaste sobre la falta de equipamiento, donde tu modelo no se ajusta suficientemente bien a los datos de entrenamiento. En ese caso, tanto la pérdida de entrenamiento como la pérdida de validación son similares, pero pobres. Su modelo aprendió cosas razonables para que se generalicen a los datos de validación, pero eso no es suficiente para resolver la tarea.
Puede usar los métodos opuestos aquí: haga que su modelo sea más potente y use menos regularización. Simplemente no debería usar menos datos, aunque eso simplificaría la tarea, ya que no se generalizaría tan bien en el mundo real.
- ¿Cuál es la ventaja del modelo espacial autorregresivo?
- ¿Cuáles son mis próximos pasos en el aprendizaje automático después de aprender estadísticas y álgebra lineal?
- ¿Cuál sería su guía para un hombre de 46 años que conoce la programación primaria y está interesado en obtener un conocimiento práctico del aprendizaje automático?
- Para un problema de clasificación supervisada, primero busque grupos a través de un algoritmo de aprendizaje no supervisado, y para los miembros en el mismo grupo, asigne la misma etiqueta según un voto mayoritario. ¿Funciona bien?
- ¿Qué sucede si hacemos que cada unidad de filtro o núcleo en una capa CNN dentro de una red neuronal profunda tenga diferentes tamaños de ventana pero el mismo número de parámetros de peso (lo que resulta en granulado grueso)? ¿Podría conducir a un efecto contextual?