Hasta donde sé, el sobreajuste ocurre cuando el modelo matemático que está utilizando está demasiado cerca, demasiado ajustado a los datos de entrenamiento, por lo que en realidad no representa bien todos los demás casos posibles.
Echemos un vistazo a esta imagen:
- Cómo comenzar a aprender ciencia de datos y convertirse en un maestro en ello
- ¿Crees que la tecnología 'block chain' es la próxima gran novedad en informática?
- ¿Crees que la investigación universal de perturbaciones adversas es justa en las redes neuronales profundas?
- ¿Qué técnicas son útiles para las series de tiempo financieras de minería de datos?
- ¿Por qué querríamos intentar aprender una base demasiado completa en codificación dispersa?
La tercera imagen está sobreajustada: la línea azul representa perfectamente todos los datos que ha reunido a través de experimentos, pero no es bueno para representar la función real del fenómeno que estaba estudiando, que obviamente es la de la imagen central.
El sobreajuste no da mejores resultados: está mal porque los datos que tiene son propensos al ruido y miden el error, por lo que debe ajustar una función que elimine estos sesgos.