Dado un problema de clasificación binaria, el objetivo es encontrar la “mejor” línea que tenga la máxima probabilidad de clasificar correctamente los puntos invisibles. La forma en que define esta noción de “mejor” le ofrece diferentes modelos como SVM y regresión logística (LR).
En SVM, la línea [math] \ ell_1 [/ math] es mejor que la línea [math] \ ell_2 [/ math] si el “margen” de [math] \ ell_1 [/ math] es mayor, es decir, está más lejos de ambas clases. En LR, una línea [math] \ ell [/ math] define una distribución de probabilidad sobre el espacio de entrada. La línea [math] \ ell_1 [/ math] es mejor que la línea [math] \ ell_2 [/ math] si la distribución definida por [math] \ ell_1 [/ math] es baja en los puntos de clase -1 y alta en class + 1 punto en promedio , en comparación con la distribución definida por [math] \ ell_2 [/ math].
Esta definición de “mejor” da como resultado diferentes funciones de pérdida. Si observa los problemas de optimización de SVM lineal y LR (regularizado), son muy similares:
- ¿Cómo es el curso de aprendizaje automático NPTEL?
- Cómo hacer clustering de tipos de datos mixtos en Python
- ¿Cuáles son los últimos algoritmos de aprendizaje de los vecinos más cercanos? Me refiero a todo lo que se basa en datos, como métodos basados en instancias, kNN, algoritmos de aprendizaje vecinos y métricos, todo en un solo lugar.
- ¿Debo aplicar PCA antes o después de la selección de funciones?
- ¿Qué debo hacer cuando tengo una cita con las características NULL?
[matemáticas] \ min_ {w} \ lambda \ | w \ | ^ 2 + \ sum_ {i} \ max \ {0, 1 – y_ {i} w ^ Tx_ {i} \} [/ math]
[matemáticas] \ min_ {w} \ lambda \ | w \ | ^ 2 + \ sum_ {i} \ log (1 + \ exp (1 -y_ {i} w ^ Tx_ {i})) [/ math]
Es decir, solo difieren en la función de pérdida: SVM minimiza la pérdida de bisagra mientras que la regresión logística minimiza la pérdida logística.
Echemos un vistazo a las funciones de pérdida:
Entonces, ahora, funciona por las mismas razones que SVM [o red neuronal, o cualquier otro algoritmo basado en gradiente]. Tiene una alta pérdida para puntos mal clasificados, y baja pérdida para puntos correctamente clasificados. El paso de gradiente intenta reducir esta pérdida, es decir, cambia los parámetros de modo que se clasifiquen más puntos correctamente. Por lo tanto, cuando el algoritmo de optimización converge, obtiene un clasificador que tiene una pérdida promedio baja o clasifica la mayoría de los puntos correctamente.
(Fuente de la imagen: Funciones de pérdida para regresión ordinal)