Aquí está el gráfico de algunas funciones de pérdida populares:
Aquí, la curva azul es la pérdida de bisagra, la curva roja es la pérdida logística y la curva verde es la pérdida de mínimos cuadrados.
- ¿Se ha realizado algún trabajo para hacer que la regresión lineal sea amigable para el laico?
- Cómo determinar la distribución que sigue un conjunto de datos
- ¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.
- Cómo construir un conjunto de datos para el aprendizaje automático
- ¿Cómo es usar las API de servicios cognitivos de Microsoft?
El eje x corresponde a [math] yf (x) [/ math], es decir, el producto de la etiqueta verdadera y la etiqueta predicha. Idealmente, queremos que estos sean ambos +1 o ambos -1, de modo que cuando el producto sea 1, no haya penalización. A medida que se desvía de 1, hay sanciones. Hay dos cosas que observar aquí: pérdida logística y pérdida cuadrada:
- La pérdida cuadrada diverge al infinito mucho más rápido a medida que [math] yf (x) [/ math] va por debajo de cero. Esta es la razón por la que es menos robusto para los valores atípicos en comparación con la pérdida logística. Como puede adivinar, la pérdida de la bisagra es aún mejor. (Más detalles aquí: la respuesta de Prasoon Goyal a ¿Cuándo funciona la regresión logística mal y se debe preferir la máquina de vectores de soporte (SVM)?)
- La pérdida cuadrada penaliza los puntos incluso si se clasifican correctamente. Entonces, si la etiqueta verdadera [matemática] y [/ matemática] es 1 y la predicción [matemática] f (x) [/ matemática] es 2, aún paga un precio (aunque esto no contribuye directamente a la sensibilidad a los valores atípicos).
(Fuente de la imagen: ¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1)