¿Qué es exactamente el sobreajuste y por qué preferimos modelos que no están sobreajustados incluso cuando los resultados son mejores?

Hasta donde sé, el sobreajuste ocurre cuando el modelo matemático que está utilizando está demasiado cerca, demasiado ajustado a los datos de entrenamiento, por lo que en realidad no representa bien todos los demás casos posibles.

Echemos un vistazo a esta imagen:

Cómo comenzar a aprender ciencia de datos y convertirse en un maestro en ello
¿Crees que la tecnología 'block chain' es la próxima gran novedad en informática?
¿Crees que la investigación universal de perturbaciones adversas es justa en las redes neuronales profundas?
¿Qué técnicas son útiles para las series de tiempo financieras de minería de datos?
¿Por qué querríamos intentar aprender una base demasiado completa en codificación dispersa?

La tercera imagen está sobreajustada: la línea azul representa perfectamente todos los datos que ha reunido a través de experimentos, pero no es bueno para representar la función real del fenómeno que estaba estudiando, que obviamente es la de la imagen central.

El sobreajuste no da mejores resultados: está mal porque los datos que tiene son propensos al ruido y miden el error, por lo que debe ajustar una función que elimine estos sesgos.

Machine Learning

¿Qué pila de tecnología usa Akinator?

¿La mayoría de los algoritmos de aprendizaje automático se ejecutan en lotes, o se ejecutan cada vez que obtienen un nuevo bit de datos?

¿Cuáles son algunas aplicaciones destacadas de los métodos de máxima verosimilitud?

¿Cuáles son algunos textos recientes sobre métodos de kernel?

¿Cuáles son los campos de negocios donde se puede usar la red neuronal?

¿Qué tecnología tiene un futuro mejor, el aprendizaje automático o Node.js?

Sin entrar en los detalles de las matemáticas subyacentes del sobreajuste, permítanme ofrecer una explicación simple de por qué sucede y cómo afecta a su modelo.

Digamos que viajas a una ciudad imaginaria llamada SuperHelpfulVille. La gente de esta ciudad es muy servicial y siempre te da alguna respuesta cuando tienes una pregunta.

Llegas al aeropuerto, preguntándote en qué hotel deberías elegir quedarte. Dado que la gente de SuperHelpfulVille es una gran lectora de mentes, terminas en una situación en la que estás parado en la acera, rascándote la cabeza y de repente , todo el mundo te ofrece una sugerencia sobre dónde deberías quedarte en la ciudad. De las 1000 personas presentes en el aeropuerto, 600 sugieren que te quedes en la parte norte. 200 sugieren que te quedes en el oeste. Resto 200 tienen sus propias sugerencias individuales. Cada sugerencia afectará su decisión. Pero en una situación realista, ¿tendrá en cuenta la opinión de cada persona? Probablemente no. Uno pensaría: oye, la mayoría de la gente simplemente sugiere el norte y el oeste, decidamos entre esas áreas. ¿Qué pasará si prestas atención a los consejos de todas las personas que están presentes allí? Estarás atrapado en el proceso de decisión por mucho tiempo.

Del ejemplo anterior, las sugerencias individuales fueron ruido, que un modelo de aprendizaje no debería pesar demasiado. Un modelo de aprendizaje ideal debería limitar la influencia, la aparición de pequeños puntos de datos, sobre el gradiente, y ser bastante genérico.

El sobreajuste provoca un deterioro severo en el rendimiento. Aún se puede lograr una gran precisión mediante la regularización de los datos, un proceso que evita el sobreajuste. Al igual que aún puede decidir sobre un gran hotel, sin escuchar a todas las personas en el aeropuerto.

TL; DR Overfitting no aumenta esencialmente la precisión en la misma proporción, ya que degrada el rendimiento. La regularización puede evitar la degradación del rendimiento inducida por sobreajuste y aún así mantener una buena precisión.

Shashank Ashtikar

More Interesting

¿Cuáles son las ventajas y desventajas de Tracking Learning Detection (TLD) frente a otros métodos de rastreo de objetos como el filtrado de partículas?

Si ya hemos conocido una función, ¿podemos generar una red neuronal para la inferencia, sin pasar por el proceso de capacitación que consume tiempo y energía?

¿Cuáles son los problemas de investigación abiertos en el aprendizaje automático para la detección de intrusos?

¿Cuál es la diferencia entre un sistema experto y el aprendizaje automático?

Cómo implementar clustering basado en densidad

¿Podría alguien elaborar la relación entre un lenguaje de máquina, un sistema operativo y un procesador en particular?

¿Qué opinas sobre la inteligencia artificial? ¿Vale la pena desarrollarla?

¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?

¿Cuál es la diferencia entre el análisis factorial y el análisis de conglomerados?