¿Existe una definición matemática o algorítmica de sobreajuste? ¿Hay documentos detallados que definan primero el sobreajuste?

Una forma tradicional de modelar el aprendizaje automático es la siguiente: su conjunto de datos consta de n ejemplos [math] d = \ {x_1, \ ldots, x_n \} [/ math], cada uno dibujado iid de alguna distribución [math] D [/ math ] y está intentando aprender un clasificador [math] \ theta [/ math] desde algún espacio [math] \ Theta [/ math]. Hay una función de pérdida [math] \ ell (x, \ theta) [/ math] que toma como entrada un ejemplo y un clasificador, y le dice el error en ese clasificador. (Las funciones de pérdida típicas pueden ser el error al cuadrado de su clasificador o la función del indicador que le indica si ha cometido un error). Lo que quiere hacer es aprender con respecto a la distribución, es decir, encontrar:

[matemáticas] \ theta ^ * = \ arg \ min _ {\ theta \ in \ Theta} E_ {x \ sim D} [\ ell (x, \ theta)] [/ math]

Sin embargo, no tiene acceso directo a [matemática] D [/ matemática], por lo que generalmente hace una minimización empírica del riesgo: encuentra:

[matemáticas] \ theta ‘= \ arg \ min _ {\ theta \ in \ Theta} \ frac {1} {n} \ sum_ {i = 1} ^ n \ ell (x_i, \ theta) [/ math]

es decir, el clasificador que hace lo mejor en el conjunto de datos. Tiene sobreajuste si esto es sustancialmente peor que lo mejor en la distribución, es decir, si:

[matemáticas] E_ {x \ sim D} [\ ell (x, \ theta ‘)]> E_ {x \ sim D} [\ ell (x, \ theta ^ *)] + \ epsilon [/ math]

donde [math] \ epsilon [/ math] es su tolerancia a errores.

Existe toda una literatura en la que las personas prueban los límites de la complejidad de la muestra , es decir, los límites de la cantidad de datos que necesita para evitar un ajuste excesivo en el sentido anterior, en términos de su tolerancia al error [matemáticas] \ epsilon [/ matemáticas] y la complejidad de su familia de hipótesis [matemáticas] \ Theta [/ matemáticas]. Busque la dimensión VC y la complejidad de la muestra para comenzar a leer sobre esto.