¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

Aquí está el gráfico de algunas funciones de pérdida populares:

Aquí, la curva azul es la pérdida de bisagra, la curva roja es la pérdida logística y la curva verde es la pérdida de mínimos cuadrados.

El eje x corresponde a [math] yf (x) [/ math], es decir, el producto de la etiqueta verdadera y la etiqueta predicha. Idealmente, queremos que estos sean ambos +1 o ambos -1, de modo que cuando el producto sea 1, no haya penalización. A medida que se desvía de 1, hay sanciones. Hay dos cosas que observar aquí: pérdida logística y pérdida cuadrada:

  • La pérdida cuadrada diverge al infinito mucho más rápido a medida que [math] yf (x) [/ math] va por debajo de cero. Esta es la razón por la que es menos robusto para los valores atípicos en comparación con la pérdida logística. Como puede adivinar, la pérdida de la bisagra es aún mejor. (Más detalles aquí: la respuesta de Prasoon Goyal a ¿Cuándo funciona la regresión logística mal y se debe preferir la máquina de vectores de soporte (SVM)?)
  • La pérdida cuadrada penaliza los puntos incluso si se clasifican correctamente. Entonces, si la etiqueta verdadera [matemática] y [/ matemática] es 1 y la predicción [matemática] f (x) [/ matemática] es 2, aún paga un precio (aunque esto no contribuye directamente a la sensibilidad a los valores atípicos).

(Fuente de la imagen: ¿Cuáles son los impactos de elegir diferentes funciones de pérdida en la clasificación para aproximar la pérdida 0-1)

La respuesta a esta pregunta radica en la funcionalidad del método de mínimos cuadrados.

El problema con los valores atípicos en el método de mínimos cuadrados es que el método de mínimos cuadrados solo conoce los datos en términos de su media y sus diferencias al cuadrado de la media. Los valores atípicos distorsionarán (amplificarán o disminuirán radicalmente) en primer lugar. Luego, en segundo lugar, cuadrar estas diferencias solo acentuará la distorsión.
Por lo tanto, la presencia de valores atípicos tendrá un gran impacto en el método LS.

Ahora, para la regresión logística, el límite de decisión toma en consideración solo los puntos que están más cerca de él, por lo tanto, el efecto de los valores atípicos en el límite de decisión es muy menor. Esto no significa que un valor atípico no pueda tener un efecto significativo en los límites.

Espero que esto ayude.

Por lo general, el algoritmo de aprendizaje supervisado encuentra una estimación que minimiza la función de costo. La regresión lineal usa la función de pérdida cuadrada y la regresión logística usa la función de pérdida logística inversa (función de costo de la regresión logística)

[math] yf (x) [/ math] en el eje x no es más que producto de la etiqueta real (y) y la etiqueta predicha [math] (f (x)) [/ math].

Por ejemplo: límite de decisión por regresión lineal (función de pérdida cuadrada)

Debido a algunas de las observaciones atípicas en el segundo gráfico, la regresión lineal proporciona un límite de decisión que clasifica mal las etiquetas. Para reducir la pérdida cuadrada, elige una estimación al costo de predecir etiquetas incorrectamente. Por otro lado, la función de costo logístico no penaliza la estimación para la observación atípica.

Esto se debe a que la distribución logística tiene colas más pesadas (que la distribución normal):

Cualquier valor atípico no tendría tanto peso bajo los supuestos de la distribución logística (azul).

El límite de decisión es sensible solo a los puntos que están cerca del límite de decisión. Los valores atípicos están bien clasificados y, por lo tanto, contribuyen menos a la función de costos.

Observe la curva sigmoidea y transita entre 0 y 1 entre -5 y 5 para el ojo humano … Cualquier otra cosa (atípica) seguirá siendo solo 1 en la curva sigmoidea.

Esta fue la motivación para SVM