¿Cuáles son las ventajas de las máquinas de vectores de soporte (SVM) en comparación con la regresión lineal o la regresión logística?

ACTUALIZACIÓN (IMPORTANTE): mi respuesta en realidad compara la regresión logística (logit lineal) con SVM (kernel no lineal). Como señala la respuesta de Anónimo, también podría tener una función de logit no lineal y un núcleo lineal en SVM. Mi respuesta estrictamente hablando no es correcta. Esto es como una versión simplificada sobre por qué los modelos lineales (regresión logística logit lineal) son malos y los modelos no lineales (SVM con kernel RBF) son buenos en algunos casos.
———

Que yo sepa, SVM es un clasificador. No lo he visto comparado con la regresión lineal, y creo que es incorrecto usar la regresión lineal para la clasificación [1]

Sin embargo, le daré una intuición fácil de entender por qué SVM es mejor que la regresión logística.

Digamos que tiene algunos puntos rojos y puntos verdes … la próxima vez que le den un punto negro … necesita poder clasificarlo como rojo o verde. Este es un problema de clasificación muy simple en Machine Learning.

Ejemplo 1:

Intentará crear una curva / línea que separe los puntos rojos de los puntos verdes. Esto se conoce como límite de decisión. Con este límite de decisión, dirá que si se encuentra en un lado, llamaré al punto negro como rojo, si se encuentra en el otro lado, llamaré al punto negro como verde.

Con la regresión logística, solo puede lograr algo como esto (ya que es un modelo lineal): * Imagen representativa, no regresión logística real.

Ejemplo 1.1:
También debe saber que la regresión logística solo puede generar un límite de decisión en línea recta. Nunca se puede llegar a una curva ondulada como un límite de decisión con regresión logística.

Con SVM puede llegar a un límite de decisión similar a este (si tiene un núcleo no lineal):

Ejemplo 1.2

Claramente estarías de acuerdo conmigo en que el segundo límite de decisión es mejor que el primero para separar los puntos rojos de los verdes.

Pero el poder real de SVM se ve cuando tiene datos como este:

Ejemplo 2

Estarás en un lío si usas la regresión logística para separar los datos con una línea recta. De hecho, no puede hacerlo correctamente con regresión logística.

Pero si entrena correctamente su SVM, puede lograr algo como esto:
Ejemplo 2.2
Bastante sorprendente, ¿no?

Pero también hay una maldición asociada con los SVM, si no lo entrena adecuadamente para el primer ejemplo, también podría terminar con algo como esto:
Ejemplo 1.4
Esto está bastante mal … es posible que no desee tener estas pequeñas burbujas como límites de decisión que dañarán sus predicciones. Esto se conoce como sobreajuste .

Foto. Cortesía: Machine Learning

[1] Puede encontrar más información sobre por qué no usar la regresión lineal para la clasificación aquí ¿Por qué no abordar la clasificación a través de la regresión?

Los métodos del núcleo NO son exclusivos de SVM. Este es un concepto erróneo popular. Si observa la función objetivo para la regresión logística, verá que es igual de fácil usar el truco del núcleo. Vea a continuación para una referencia.

Página en cmu.edu

SVM es básicamente una regresión logística con regularización L2 y una función de pérdida ligeramente diferente (SVM usa pérdida de bisagra mientras que logística utiliza pérdida de registro).

Trato estos métodos como esencialmente equivalentes (uno podría obtener fácilmente probabilidades de SVM a través de la escala de Platt).

Me parece que la regresión logística es un poco más teóricamente atractiva, dada la formulación de máxima verosimilitud (es decir, asumir que las variables de respuesta son Bernoulli (p) donde logit (p) es lineal en las variables explicativas). Pero en la práctica he descubierto que SVM ofrece un rendimiento ligeramente mejor (pero muy leve).

– SVM maximiza el margen, por lo que el modelo es ligeramente más robusto (en comparación con la regresión lineal)
– pero lo más importante: SVM admite núcleos, por lo que puede modelar incluso relaciones no lineales

Editar: como señala Anónimo, PUEDE usar núcleos para otros métodos. Pero para casi todas las bibliotecas SVM, los núcleos ya están implementados, bien investigados y documentados, por lo que es mucho más fácil usarlos con SVM.

SVM tiene el truco del kernel incrustado que transforma los datos de tal manera que los ve en una perspectiva diferente que le permite separar los datos en hiperplanos.

entonces, si la latitud y la longitud se usan como dimensiones o características para identificar la formación o precipitación de nubes, entonces la regresión logística podría fallar, pero SVM podría ayudarlo con el truco del núcleo que puede llevarlo a la altitud como otra característica o dimensión que seguramente es buena para el problema

Saludos

Mohan Rai

https://www.imurgence.com/

haz clic para unirte al grupo de WhatsApp

Asesoramiento en ciencia de datos

Divulgación: Soy el cofundador de Imurgence – Un Instituto de Capacitación en Análisis y Director en Simple & Real Analytics – Una empresa de productos Big Data / Analytics / Machine Learning

SVM es una herramienta de clasificación, la regresión lineal es una herramienta de regresión, y la regresión logística se puede usar para ambos.

More Interesting

¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?

¿Por qué decimos que la máquina de vectores de soporte y muchas otras técnicas de aprendizaje automático tienen un supuesto subyacente de iid?

¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

¿Es posible comenzar a aprender y trabajar en el aprendizaje por refuerzo y el aprendizaje profundo sin un conocimiento previo sólido de otras clases de ML?

Neil Lawrence: ¿Qué opinas sobre la relación entre las estadísticas y el aprendizaje automático?

¿Está bien usar API para mi proyecto de último año en Informática?

¿Cuál es la diferencia entre un conjunto de entrenamiento y un conjunto de prueba?

¿Cuáles son las principales diferencias entre la teoría de juegos y el aprendizaje por refuerzo?

¿Cuáles son los componentes básicos del reconocimiento de voz desde el punto de vista DSP?

¿Podemos regularizar la red neuronal profunda desconectando enlaces entre unidades, en lugar de abandonar unidades seleccionadas al azar?

¿Cómo se compara Orange con Tableau?

¿Cuál es la diferencia entre ML y NLP?

¿Qué matemáticas se necesitan para este curso de aprendizaje automático?

¿Cómo se puede aplicar el aprendizaje automático en los campos de la ingeniería química y de procesos?

Cómo crear rápidamente un prototipo de una aplicación de reconocimiento de imágenes utilizando el aprendizaje automático y la red neuronal