¿Cuándo la regresión logística funciona mal y se debe preferir la máquina de vectores de soporte (SVM)?

A2A.

La regresión logística, con {-1, +1} codificaciones de clase y [math] \ ell_2 [/ math] -regularization conduce al siguiente problema de optimización:

[matemáticas] \ min_ {w} \ lambda \ | w \ | ^ 2 + \ sum_ {i} \ log (1 + \ exp (1 -y_ {i} w ^ Tx_ {i})) [/ math]

SVM, por otro lado, conduce a la siguiente formulación:

[matemáticas] \ min_ {w} \ lambda \ | w \ | ^ 2 + \ sum_ {i} \ max \ {0, 1 – y_ {i} w ^ Tx_ {i} \} [/ math]

Es decir, solo difieren en la función de pérdida: la regresión logística minimiza la pérdida logística, mientras que SVM minimiza la pérdida de bisagra.

Echemos un vistazo a las funciones de pérdida:

Hay 2 diferencias a tener en cuenta:

  • La pérdida logística diverge más rápido que la pérdida de bisagra. Entonces, en general, será más sensible a los valores atípicos.
  • La pérdida logística no llega a cero incluso si el punto se clasifica con suficiente confianza. Esto podría conducir a una degradación menor en la precisión.

Por lo tanto, normalmente puede esperar que SVM tenga un rendimiento marginalmente mejor que la regresión logística.

Algunos otros puntos de comparación:

  • La regresión logística tiene una interpretación probabilística. Por lo tanto, LR puede integrarse en otros marcos probabilísticos mucho más fácilmente que los SVM.
  • Si bien ambos modelos pueden ser “kernelized”, SVM conduce a soluciones más dispersas debido a la holgura complementaria.
  • SVM tiene un algoritmo SMO muy eficiente para optimizar el modelo kernelized. Además, existe LibSVM , una implementación de SMO, que permite entrenar SVM no lineales con mucha facilidad.

(Fuente de la imagen: Funciones de pérdida para regresión ordinal)

More Interesting

¿Es seguro suponer que una computadora comprada ahora (julio de 2015) no tendrá un rendimiento desactualizado durante 3 años, dado que no habría un avance en la investigación fundamental (como un chip no basado en silicio)?

¿Es cierto que en el futuro cercano, todos los softwares populares tendrán las características de IA / aprendizaje automático?

¿Quién influye más en los estudiantes técnicos, Bill Gates o Steve Jobs?

¿Qué curso debería estudiar para piratería ética después del 10?

¿Cuáles son algunos buenos ejemplos de problemas computacionales que naturalmente caen en NPSPACE?

¿Qué es un DEBE tener habilidades para un desarrollador de aprendizaje automático?

¿Son los memristors un reemplazo viable para la memoria flash?

¿Cómo explicará 'Compresión de datos' a un laico?

¿Cuáles son las variables ambientales en las computadoras en términos simples?

¿Qué es un índice agrupado?

Estoy realmente interesado en la computación paralela y quiero trabajar con ella en el futuro. Para la universidad, ¿debo especializarme en ingeniería informática o informática?

¿Cómo funcionan los microprocesadores?

¿Cuál será la próxima gran cosa después de 'big data' en tecnología financiera?

¿Qué es más cierto, que la informática te ayuda a comprender mejor la filosofía, o que la filosofía te ayuda a comprender mejor la informática?

¿Cuál es la ventaja del modelo basado en reglas en comparación con el modelo basado en aprendizaje automático?