¿Qué es exactamente el sobreajuste y por qué preferimos modelos que no están sobreajustados incluso cuando los resultados son mejores?

Hasta donde sé, el sobreajuste ocurre cuando el modelo matemático que está utilizando está demasiado cerca, demasiado ajustado a los datos de entrenamiento, por lo que en realidad no representa bien todos los demás casos posibles.

Echemos un vistazo a esta imagen:

La tercera imagen está sobreajustada: la línea azul representa perfectamente todos los datos que ha reunido a través de experimentos, pero no es bueno para representar la función real del fenómeno que estaba estudiando, que obviamente es la de la imagen central.

El sobreajuste no da mejores resultados: está mal porque los datos que tiene son propensos al ruido y miden el error, por lo que debe ajustar una función que elimine estos sesgos.

Sin entrar en los detalles de las matemáticas subyacentes del sobreajuste, permítanme ofrecer una explicación simple de por qué sucede y cómo afecta a su modelo.

Digamos que viajas a una ciudad imaginaria llamada SuperHelpfulVille. La gente de esta ciudad es muy servicial y siempre te da alguna respuesta cuando tienes una pregunta.

Llegas al aeropuerto, preguntándote en qué hotel deberías elegir quedarte. Dado que la gente de SuperHelpfulVille es una gran lectora de mentes, terminas en una situación en la que estás parado en la acera, rascándote la cabeza y de repente , todo el mundo te ofrece una sugerencia sobre dónde deberías quedarte en la ciudad. De las 1000 personas presentes en el aeropuerto, 600 sugieren que te quedes en la parte norte. 200 sugieren que te quedes en el oeste. Resto 200 tienen sus propias sugerencias individuales. Cada sugerencia afectará su decisión. Pero en una situación realista, ¿tendrá en cuenta la opinión de cada persona? Probablemente no. Uno pensaría: oye, la mayoría de la gente simplemente sugiere el norte y el oeste, decidamos entre esas áreas. ¿Qué pasará si prestas atención a los consejos de todas las personas que están presentes allí? Estarás atrapado en el proceso de decisión por mucho tiempo.

Del ejemplo anterior, las sugerencias individuales fueron ruido, que un modelo de aprendizaje no debería pesar demasiado. Un modelo de aprendizaje ideal debería limitar la influencia, la aparición de pequeños puntos de datos, sobre el gradiente, y ser bastante genérico.

El sobreajuste provoca un deterioro severo en el rendimiento. Aún se puede lograr una gran precisión mediante la regularización de los datos, un proceso que evita el sobreajuste. Al igual que aún puede decidir sobre un gran hotel, sin escuchar a todas las personas en el aeropuerto.

TL; DR Overfitting no aumenta esencialmente la precisión en la misma proporción, ya que degrada el rendimiento. La regularización puede evitar la degradación del rendimiento inducida por sobreajuste y aún así mantener una buena precisión.

More Interesting

¿Cuáles son las ventajas y desventajas de Tracking Learning Detection (TLD) frente a otros métodos de rastreo de objetos como el filtrado de partículas?

Si ya hemos conocido una función, ¿podemos generar una red neuronal para la inferencia, sin pasar por el proceso de capacitación que consume tiempo y energía?

¿Cuáles son los problemas de investigación abiertos en el aprendizaje automático para la detección de intrusos?

¿Cuál es la diferencia entre un sistema experto y el aprendizaje automático?

Cómo implementar clustering basado en densidad

¿Podría alguien elaborar la relación entre un lenguaje de máquina, un sistema operativo y un procesador en particular?

¿Qué opinas sobre la inteligencia artificial? ¿Vale la pena desarrollarla?

¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?

¿Cuál es la diferencia entre el análisis factorial y el análisis de conglomerados?

¿Cuál es la relación entre economía y ciencia de datos?

¿Cuáles son los tipos de máquina?

¿Cuándo harán las máquinas la física y volverán a aprender las características de los datos de observación y luego reemplazarán aquellas como masa, giro, color o carga?

Cómo aprender un pozo bayesiano no paramétrico

¿Cuáles son las diferencias entre los algoritmos CHAID y CART para el crecimiento de los árboles de decisión?