¿Cuáles son las consecuencias de usar la función de error del tren [matemáticas] \ min_ {f \ in \ mathcal {H}} \ max_ {i \ in \ {1… N \}} \ | f (x ^ {(i)}) – y ^ {(i)} \ | ^ 2 [/ math] en lugar del error de tren medio empírico estándar para Machine Learning?

Si las etiquetas en sus datos tienen un error normal, entonces el MLE de sus parámetros es equivalente a los parámetros que minimizan el error L2.

En otras palabras: puede derivar el error L2 como óptimo dado

  1. la suposición de que la verdadera función está en su espacio de hipótesis
  2. la suposición de que sus etiquetas son ‘precisas’, pero con cierta cantidad de ruido normal agregado

El error L2 tiene el beneficio adicional de ser una regla de puntuación adecuada (ver Regla de puntuación – Wikipedia), lo que significa que si su modelo está escupiendo probabilidades, L2 recompensará las probabilidades bien calibradas.

Minimizar L1 también produce el MLE dado para ciertos supuestos de ruido (es decir, suponiendo que el ruido proviene de la distribución laplaciana), pero (desafortunadamente) no es una regla de puntuación adecuada. La pérdida de registro es una regla de puntuación adecuada.

Tenga en cuenta que verá la pérdida de registro y el error L2 utilizados en contextos de clasificación, y el error L2 y L1 en contextos de regresión. Esto se debe a las justificaciones teóricas subyacentes de las que provienen.

Una razón por la que soy escéptico de que su función de error dada funcione mejor que las funciones anteriores es que no hay distribución de ruido, por lo que minimizarla produce el MLE, y definitivamente no es una regla de puntuación adecuada, por lo que es difícil llegar con un problema donde realmente es la función de error óptima para usar.


Considere un conjunto 1D de valores x muestreados uniformemente de [0, 1]. Suponga que las etiquetas para todos ellos están cerca de 0, excepto que un punto se etiqueta como 1. Queremos una función [matemática] f (x) = c [/ matemática] que minimice el error (es decir, la regresión logística). Para grandes conjuntos de datos, L1, L2 y pérdida de registro tenderán a sugerir f (x) = 0, mientras que el error residual máximo siempre dará f (x) ~ 1/2.

Podríamos considerar el valor atípico anterior como un artefacto de la función ‘verdadera’ que no está en nuestro espacio de hipótesis o como resultado del ruido, lo que nos dice que cualquiera de los dos es suficiente para que fallemos catastróficamente , ya que no hay una cantidad de puntos de datos etiquetados como ” 0 ”nos convencerá de bajar f (x) por debajo de 1/2.

L1, L2 y log-loss, en contraste, son resistentes a una pequeña cantidad de errores. Para cualquier número de errores, existe cierta cantidad de datos que harán que la función de minimización de errores para L1, L2 y pérdida de registro sea correcta (bueno … al menos arbitrariamente cerca de ser correcta).


La tragedia del mundo real es que solo los conjuntos de datos artificiales son ideales. Para cualquier conjunto de datos del mundo real, tiene garantizadas dos cosas:

  1. habrá ruido
  2. la verdadera función no estará en su espacio de hipótesis

Dado esto, estoy predispuesto a preferir las funciones de error que

  1. son derivables como minimizadores de errores
  2. puede convencerse de ignorar los valores atípicos dado suficiente evidencia contraria
  3. tienden a estar de acuerdo con otras funciones de error que han demostrado funcionar

L1, L2 y Log-loss tienen un rendimiento razonablemente bueno con estos criterios, pero la puntuación residual máxima no.


Además, la función de error máximo de residuos no necesariamente tiene mínimos locales. Considere el problema anterior, pero ahora expandimos nuestro modelo para tener dos parámetros: [matemática] f (x) = sigmoide (ax + b) [/ matemática] (es decir, regresión logística). Si (1,1) es el punto de datos en 1 (y tenemos una gran cantidad de puntos de datos aleatorios etiquetados como cero), entonces toda la función de error de máximo de residuos requiere que f (1) = 0.5; Hay un número infinito de parámetros (a, b) que nos permiten hacer esto, y no tenemos forma de distinguirlos con esta función de error.

El MSE y la pérdida de la norma infinita penalizarán a los valores atípicos. El objetivo del MSE es reducir la distancia cuadrada media l2 (por ejemplo, en el caso de la regresión), mientras que la pérdida infinita se refiere principalmente a la reducción de la distancia máxima desde la etiqueta.

Suponiendo que su modelo es sensible a los valores atípicos, la pérdida de MSE probablemente arrojará resultados más precisos: puede imaginar un escenario en el que hay valores atípicos de K> 1, el MSE será mucho mayor en este caso, en comparación con la pérdida de infinito.

Con la función de pérdida dada en la pregunta, el entrenamiento puede ni siquiera converger. Imagine ajustar el modelo únicamente en el punto [matemática] i [/ matemática] que conduce a la pérdida máxima, luego en la siguiente ronda (en términos de minimizar [matemática] f [/ matemática]), deje que [matemática] j [/ matemática ] sea el punto que conduzca a la pérdida máxima, y ​​es posible que [math] j \ neq i [/ math] y [math] loss_j> loss_i [/ ​​math]. Y esto podría seguir y seguir en el proceso de optimización.

Se minimiza la minimización de un error de tren medio empírico utilizando SGD para converger al menos.

More Interesting

Cómo hacer que un estudiante de pre-varsity entienda la diferencia entre estadística paramétrica y no paramétrica

¿Por qué deberíamos considerar muestras negativas en un sistema de recomendación basado en comentarios implícitos?

¿Por qué no podemos hacer una puerta XOR con 1 neurona?

¿Cuál es la mejor arquitectura de red neuronal para procesar video?

Para un puesto de ciencia de datos, ¿por qué las empresas hacen preguntas sobre la estructura de datos?

¿Cómo se puede reducir el tamaño del modelo TFIDF sin reducir significativamente la precisión?

Con el desarrollo de marcos informáticos escalables como TensorFlow y Spark, ¿seguirán siendo relevantes los marcos de una sola máquina? NumPy podría ser solo API.

¿Es una exageración aplicar un conjunto de redes neuronales?

¿Implementó algoritmos de aprendizaje automático desde cero con el propósito de aprender?

¿Qué es la entropía cruzada en palabras fáciles?

¿Cómo debo abordar mi tesis sobre 'conversión de lenguaje de señas a texto'? ¿Cuál debería ser el método?

¿Es GitHub o GitLab más adecuado para una empresa de ciencia de datos / ML?

¿Cuáles son algunas de las funciones de uso común que se pueden extraer de la música con fines de aprendizaje automático?

En una red neuronal recurrente, ¿por qué proporcionamos una secuencia de observaciones como entrada (longitud fija) en lugar de alimentar una observación tras otra con respecto al tiempo?

¿Por qué NP = P es tan difícil de resolver?