¿Cuáles son las consecuencias de usar la función de error del tren [matemáticas] \ min_ {f \ in \ mathcal {H}} \ max_ {i \ in \ {1… N \}} \ | f (x ^ {(i)}) – y ^ {(i)} \ | ^ 2 [/ math] en lugar del error de tren medio empírico estándar para Machine Learning? La tecnología cambia la vida futura

Si las etiquetas en sus datos tienen un error normal, entonces el MLE de sus parámetros es equivalente a los parámetros que minimizan el error L2.

En otras palabras: puede derivar el error L2 como óptimo dado

la suposición de que la verdadera función está en su espacio de hipótesis
la suposición de que sus etiquetas son ‘precisas’, pero con cierta cantidad de ruido normal agregado

El error L2 tiene el beneficio adicional de ser una regla de puntuación adecuada (ver Regla de puntuación – Wikipedia), lo que significa que si su modelo está escupiendo probabilidades, L2 recompensará las probabilidades bien calibradas.

Minimizar L1 también produce el MLE dado para ciertos supuestos de ruido (es decir, suponiendo que el ruido proviene de la distribución laplaciana), pero (desafortunadamente) no es una regla de puntuación adecuada. La pérdida de registro es una regla de puntuación adecuada.

Tenga en cuenta que verá la pérdida de registro y el error L2 utilizados en contextos de clasificación, y el error L2 y L1 en contextos de regresión. Esto se debe a las justificaciones teóricas subyacentes de las que provienen.

Una razón por la que soy escéptico de que su función de error dada funcione mejor que las funciones anteriores es que no hay distribución de ruido, por lo que minimizarla produce el MLE, y definitivamente no es una regla de puntuación adecuada, por lo que es difícil llegar con un problema donde realmente es la función de error óptima para usar.

Considere un conjunto 1D de valores x muestreados uniformemente de [0, 1]. Suponga que las etiquetas para todos ellos están cerca de 0, excepto que un punto se etiqueta como 1. Queremos una función [matemática] f (x) = c [/ matemática] que minimice el error (es decir, la regresión logística). Para grandes conjuntos de datos, L1, L2 y pérdida de registro tenderán a sugerir f (x) = 0, mientras que el error residual máximo siempre dará f (x) ~ 1/2.

Podríamos considerar el valor atípico anterior como un artefacto de la función ‘verdadera’ que no está en nuestro espacio de hipótesis o como resultado del ruido, lo que nos dice que cualquiera de los dos es suficiente para que fallemos catastróficamente , ya que no hay una cantidad de puntos de datos etiquetados como ” 0 ”nos convencerá de bajar f (x) por debajo de 1/2.

L1, L2 y log-loss, en contraste, son resistentes a una pequeña cantidad de errores. Para cualquier número de errores, existe cierta cantidad de datos que harán que la función de minimización de errores para L1, L2 y pérdida de registro sea correcta (bueno … al menos arbitrariamente cerca de ser correcta).

La tragedia del mundo real es que solo los conjuntos de datos artificiales son ideales. Para cualquier conjunto de datos del mundo real, tiene garantizadas dos cosas:

habrá ruido
la verdadera función no estará en su espacio de hipótesis

Dado esto, estoy predispuesto a preferir las funciones de error que

son derivables como minimizadores de errores
puede convencerse de ignorar los valores atípicos dado suficiente evidencia contraria
tienden a estar de acuerdo con otras funciones de error que han demostrado funcionar

L1, L2 y Log-loss tienen un rendimiento razonablemente bueno con estos criterios, pero la puntuación residual máxima no.

Además, la función de error máximo de residuos no necesariamente tiene mínimos locales. Considere el problema anterior, pero ahora expandimos nuestro modelo para tener dos parámetros: [matemática] f (x) = sigmoide (ax + b) [/ matemática] (es decir, regresión logística). Si (1,1) es el punto de datos en 1 (y tenemos una gran cantidad de puntos de datos aleatorios etiquetados como cero), entonces toda la función de error de máximo de residuos requiere que f (1) = 0.5; Hay un número infinito de parámetros (a, b) que nos permiten hacer esto, y no tenemos forma de distinguirlos con esta función de error.

Aprendizaje automáticofuncionesMatemáticas