El sobreajuste significa que entrenamos un modelo para que coincida con su conjunto de entrenamiento tan bien que coincida muy bien con el conjunto de entrenamiento, pero puede hacer un mal trabajo de generalizar a más datos.
Fuente de imagen
- ¿El aprendizaje automático permitirá a Google detectar contenido falso?
- ¿Cómo se puede usar una distribución como una característica para la clasificación en el aprendizaje automático?
- Cómo guardar los pesos de los datos de entrenamiento de las pruebas MNIST en Tensorflow para uso futuro
- ¿Qué tan efectivamente se pueden usar las redes neuronales en la regresión? ¿Es posible alguna configuración que prediga un número que no se ve en los datos de entrenamiento?
- ¿Qué tan profundo es el aprendizaje profundo?
Aquí hay un ejemplo simple. Tenemos un montón de datos de entrenamiento, representados por los puntos negros. También tenemos una línea de regresión lineal que se ajusta y generaliza muy bien los datos. Pero luego tenemos la predicción de nuestro modelo (línea roja). Como puede ver, la predicción del modelo se adapta perfectamente a cada elemento del conjunto de entrenamiento. Sin embargo, los pesos son tan altos que el modelo resultante probablemente hará un trabajo muy pobre al generalizar los datos. Esto es lo que se denomina sobreajuste.
Tenga en cuenta que el ajuste perfecto de un conjunto de datos no significa necesariamente que esté sobreajustando datos, el síntoma más grande es una generalización deficiente.