¿Existe una definición matemática o algorítmica de sobreajuste? ¿Hay documentos detallados que definan primero el sobreajuste?

Una forma tradicional de modelar el aprendizaje automático es la siguiente: su conjunto de datos consta de n ejemplos [math] d = \ {x_1, \ ldots, x_n \} [/ math], cada uno dibujado iid de alguna distribución [math] D [/ math ] y está intentando aprender un clasificador [math] \ theta [/ math] desde algún espacio [math] \ Theta [/ math]. Hay una función de pérdida [math] \ ell (x, \ theta) [/ math] que toma como entrada un ejemplo y un clasificador, y le dice el error en ese clasificador. (Las funciones de pérdida típicas pueden ser el error al cuadrado de su clasificador o la función del indicador que le indica si ha cometido un error). Lo que quiere hacer es aprender con respecto a la distribución, es decir, encontrar:

[matemáticas] \ theta ^ * = \ arg \ min _ {\ theta \ in \ Theta} E_ {x \ sim D} [\ ell (x, \ theta)] [/ math]

Sin embargo, no tiene acceso directo a [matemática] D [/ matemática], por lo que generalmente hace una minimización empírica del riesgo: encuentra:

[matemáticas] \ theta ‘= \ arg \ min _ {\ theta \ in \ Theta} \ frac {1} {n} \ sum_ {i = 1} ^ n \ ell (x_i, \ theta) [/ math]

es decir, el clasificador que hace lo mejor en el conjunto de datos. Tiene sobreajuste si esto es sustancialmente peor que lo mejor en la distribución, es decir, si:

[matemáticas] E_ {x \ sim D} [\ ell (x, \ theta ‘)]> E_ {x \ sim D} [\ ell (x, \ theta ^ *)] + \ epsilon [/ math]

donde [math] \ epsilon [/ math] es su tolerancia a errores.

Existe toda una literatura en la que las personas prueban los límites de la complejidad de la muestra , es decir, los límites de la cantidad de datos que necesita para evitar un ajuste excesivo en el sentido anterior, en términos de su tolerancia al error [matemáticas] \ epsilon [/ matemáticas] y la complejidad de su familia de hipótesis [matemáticas] \ Theta [/ matemáticas]. Busque la dimensión VC y la complejidad de la muestra para comenzar a leer sobre esto.

No creo que haya una prueba absoluta. Sin embargo, una forma de verificarlo es eliminar uno de sus parámetros de ajuste y ver qué tan bueno es el nuevo ajuste. Si aún es bueno, existe una gran posibilidad de que estés sobreajustando.

More Interesting

¿Cuál es la propiedad unidireccional de las funciones hash criptográficas?

¿Cuál es el hecho detrás del aprendizaje automático?

¿Cuáles son los límites teóricos del poder computacional dictados por las leyes conocidas de la física?

¿Cuáles son algunos de los problemas abiertos, no especialmente famosos, de larga data en matemáticas que cualquiera puede entender?

¿Cuál es la función de un registro en una CPU?

¿Hay algún fenómeno observable en informática que no podamos explicar?

¿Cómo podemos proteger nuestra computadora de virus y ransomwares?

¿Qué porcentaje de miembros de la facultad en su departamento de CS se ocupan del aprendizaje automático?

Pasé más tiempo leyendo blogs de gestión de productos que codificación, a pesar de que estoy cursando una licenciatura en CS. Perdido :( ¿Cómo debo pasar mi último año?

¿Cuáles son ejemplos de proyectos de aprendizaje automático donde la heurística se combina efectivamente con predicciones de modelos?

¿Cómo comenzaron las organizaciones informáticas como ACM o IEEE?

¿Qué pueden hacer los profesionales y los dueños de negocios ahora para prepararse para los avances tecnológicos disruptivos de la inteligencia artificial?

¿Por qué P es desigual a NP en términos simples?

¿Puedo unirme a un montón de computadoras y crear un dispositivo de alto rendimiento? Si puedo, ¿cómo?

¿Qué tan importante es el aprendizaje por refuerzo entre las técnicas de aprendizaje automático?