Si las etiquetas en sus datos tienen un error normal, entonces el MLE de sus parámetros es equivalente a los parámetros que minimizan el error L2.
En otras palabras: puede derivar el error L2 como óptimo dado
- la suposición de que la verdadera función está en su espacio de hipótesis
- la suposición de que sus etiquetas son ‘precisas’, pero con cierta cantidad de ruido normal agregado
El error L2 tiene el beneficio adicional de ser una regla de puntuación adecuada (ver Regla de puntuación – Wikipedia), lo que significa que si su modelo está escupiendo probabilidades, L2 recompensará las probabilidades bien calibradas.
- Soy un graduado en ingeniería eléctrica. Quiero seguir estudios superiores en aprendizaje automático o inteligencia artificial en EE. UU. ¿Qué tengo que hacer?
- ¿Cuál es la diferencia clave entre un autoencoder variacional y una red adversa generativa, y cuándo debo usar cada modelo?
- ¿Por qué el aprendizaje profundo no tiene un mínimo local?
- Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción
- ¿Qué hace una capa convolucional 1 × 1?
Minimizar L1 también produce el MLE dado para ciertos supuestos de ruido (es decir, suponiendo que el ruido proviene de la distribución laplaciana), pero (desafortunadamente) no es una regla de puntuación adecuada. La pérdida de registro es una regla de puntuación adecuada.
Tenga en cuenta que verá la pérdida de registro y el error L2 utilizados en contextos de clasificación, y el error L2 y L1 en contextos de regresión. Esto se debe a las justificaciones teóricas subyacentes de las que provienen.
Una razón por la que soy escéptico de que su función de error dada funcione mejor que las funciones anteriores es que no hay distribución de ruido, por lo que minimizarla produce el MLE, y definitivamente no es una regla de puntuación adecuada, por lo que es difícil llegar con un problema donde realmente es la función de error óptima para usar.
Considere un conjunto 1D de valores x muestreados uniformemente de [0, 1]. Suponga que las etiquetas para todos ellos están cerca de 0, excepto que un punto se etiqueta como 1. Queremos una función [matemática] f (x) = c [/ matemática] que minimice el error (es decir, la regresión logística). Para grandes conjuntos de datos, L1, L2 y pérdida de registro tenderán a sugerir f (x) = 0, mientras que el error residual máximo siempre dará f (x) ~ 1/2.
Podríamos considerar el valor atípico anterior como un artefacto de la función ‘verdadera’ que no está en nuestro espacio de hipótesis o como resultado del ruido, lo que nos dice que cualquiera de los dos es suficiente para que fallemos catastróficamente , ya que no hay una cantidad de puntos de datos etiquetados como ” 0 ”nos convencerá de bajar f (x) por debajo de 1/2.
L1, L2 y log-loss, en contraste, son resistentes a una pequeña cantidad de errores. Para cualquier número de errores, existe cierta cantidad de datos que harán que la función de minimización de errores para L1, L2 y pérdida de registro sea correcta (bueno … al menos arbitrariamente cerca de ser correcta).
La tragedia del mundo real es que solo los conjuntos de datos artificiales son ideales. Para cualquier conjunto de datos del mundo real, tiene garantizadas dos cosas:
- habrá ruido
- la verdadera función no estará en su espacio de hipótesis
Dado esto, estoy predispuesto a preferir las funciones de error que
- son derivables como minimizadores de errores
- puede convencerse de ignorar los valores atípicos dado suficiente evidencia contraria
- tienden a estar de acuerdo con otras funciones de error que han demostrado funcionar
L1, L2 y Log-loss tienen un rendimiento razonablemente bueno con estos criterios, pero la puntuación residual máxima no.
Además, la función de error máximo de residuos no necesariamente tiene mínimos locales. Considere el problema anterior, pero ahora expandimos nuestro modelo para tener dos parámetros: [matemática] f (x) = sigmoide (ax + b) [/ matemática] (es decir, regresión logística). Si (1,1) es el punto de datos en 1 (y tenemos una gran cantidad de puntos de datos aleatorios etiquetados como cero), entonces toda la función de error de máximo de residuos requiere que f (1) = 0.5; Hay un número infinito de parámetros (a, b) que nos permiten hacer esto, y no tenemos forma de distinguirlos con esta función de error.