¿Por qué funciona la función de costo de regresión logística?

Dado un problema de clasificación binaria, el objetivo es encontrar la “mejor” línea que tenga la máxima probabilidad de clasificar correctamente los puntos invisibles. La forma en que define esta noción de “mejor” le ofrece diferentes modelos como SVM y regresión logística (LR).

En SVM, la línea [math] \ ell_1 [/ math] es mejor que la línea [math] \ ell_2 [/ math] si el “margen” de [math] \ ell_1 [/ math] es mayor, es decir, está más lejos de ambas clases. En LR, una línea [math] \ ell [/ math] define una distribución de probabilidad sobre el espacio de entrada. La línea [math] \ ell_1 [/ math] es mejor que la línea [math] \ ell_2 [/ math] si la distribución definida por [math] \ ell_1 [/ math] es baja en los puntos de clase -1 y alta en class + 1 punto en promedio , en comparación con la distribución definida por [math] \ ell_2 [/ math].

Esta definición de “mejor” da como resultado diferentes funciones de pérdida. Si observa los problemas de optimización de SVM lineal y LR (regularizado), son muy similares:

[matemáticas] \ min_ {w} \ lambda \ | w \ | ^ 2 + \ sum_ {i} \ max \ {0, 1 – y_ {i} w ^ Tx_ {i} \} [/ math]

[matemáticas] \ min_ {w} \ lambda \ | w \ | ^ 2 + \ sum_ {i} \ log (1 + \ exp (1 -y_ {i} w ^ Tx_ {i})) [/ math]

Es decir, solo difieren en la función de pérdida: SVM minimiza la pérdida de bisagra mientras que la regresión logística minimiza la pérdida logística.

Echemos un vistazo a las funciones de pérdida:

Entonces, ahora, funciona por las mismas razones que SVM [o red neuronal, o cualquier otro algoritmo basado en gradiente]. Tiene una alta pérdida para puntos mal clasificados, y baja pérdida para puntos correctamente clasificados. El paso de gradiente intenta reducir esta pérdida, es decir, cambia los parámetros de modo que se clasifiquen más puntos correctamente. Por lo tanto, cuando el algoritmo de optimización converge, obtiene un clasificador que tiene una pérdida promedio baja o clasifica la mayoría de los puntos correctamente.

(Fuente de la imagen: Funciones de pérdida para regresión ordinal)