Intuitivamente, ¿cómo funcionan los multiplicadores de Lagrange en SVM?

La idea básica detrás de los multiplicadores de Lagrange es que puede convertir un problema de optimización restringido en un problema de optimización sin restricciones. Entonces, el siguiente problema limitado

[matemáticas] \ min_ {x} f (x) [/ matemáticas]

st [matemáticas] g (x) = 0 [/ matemáticas]

se puede convertir en

[matemáticas] \ min_ {x, \ lambda} f (x) + \ lambda g (x) [/ matemáticas]


Aquí hay alguna intuición de por qué los dos son equivalentes.

Considere los contornos de la función f (x):

Aquí, las curvas azules, de adentro hacia afuera, corresponden a todos los valores de x donde [matemáticas] f (x) = 2, f (x) = 3, f (x) = 4 [/ matemáticas], y así sucesivamente. La curva negra es la restricción [matemática] g (x) = 0 [/ matemática]. Por lo tanto, desea encontrar el mínimo de [math] f (x) [/ math] tal que se encuentre en la línea negra.

Un poco de reflexión le dirá que el punto que nos interesa debe estar donde una de las curvas azules se encuentra tangencialmente con la línea negra, como en el siguiente diagrama:

Para ver por qué las curvas deben tocarse, observe que cualquier curva con [matemática] f (x) <5 [/ matemática] nunca toca la línea negra, por lo que el punto óptimo no puede estar en ninguna de esas curvas. Para cualquier curva que cruce la línea negra, debe haber una curva más pequeña que también toque / cruce la línea negra. Y estas curvas más pequeñas tendrán un valor menor de [math] f (x) [/ math], por lo que la curva que cruza la línea negra no puede tener el minimizador de [math] f (x) [/ math]. La única curva para la que no hay curvas más pequeñas es la curva que toca [matemática] g (x) = 0 [/ matemática].

Ahora, con esa intuición, y el hecho de que los gradientes son perpendiculares a las curvas dibujadas anteriormente, los gradientes de [matemática] f (x) [/ matemática] y [matemática] g (x) [/ matemática] deben ser paralelos (o antiparalelo). Es decir,

[matemáticas] \ nabla f (x) = k \ nabla g (x) [/ matemáticas]

o

[matemáticas] \ nabla f (x) + \ lambda \ nabla g (x) = 0 [/ matemáticas]

Ahora, podemos definir la función lagrangiana como

[matemáticas] L (x, \ lambda) = f (x) + \ lambda g (x) [/ matemáticas]

El minimizador de esto debe satisfacer [math] \ nabla_ {x} L = 0 [/ math], que es la misma ecuación que la anterior. Entonces, resolver el problema restringido original es lo mismo que minimizar la función lagrangiana sin restricciones.

Está tratando de maximizar el margen entre dos clases de observación, sujeto a la restricción de separación. Los multiplicadores de Lagrange funcionan en cualquier problema de optimización restringida, por lo que son apropiados aquí.

More Interesting

¿Cuáles son algunos campos en los que las redes neuronales artificiales aún no se han utilizado?

Cómo convertir datos categóricos en numéricos por Excel

¿Por qué tantos geeks de datos se unen a compañías web en lugar de resolver problemas de datos a gran escala en biología?

Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?

Cómo comenzar una investigación independiente en aprendizaje profundo

¿Scikit-learn admite paralelismo, es decir, se puede usar en un grupo de máquinas que ejecutan tareas en paralelo?

¿Cuáles son las ventajas y desventajas de Tracking Learning Detection (TLD) frente a otros métodos de rastreo de objetos como el filtrado de partículas?

Andrew Ng: ¿Qué opinas sobre la memoria?

¿Usaría WEKA o MATLAB para la clasificación binaria?

¿Cuál es la diferencia entre una cadena de Markov recurrente y una cadena de Markov absorbente?

¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.

¿Qué es la regularización neta elástica en el aprendizaje automático?

¿Qué significa realmente el aprendizaje automático en términos reales?

¿Son útiles los procesos jerárquicos de Dirichlet en la práctica?

¿Qué tipo de trabajo, como ingeniero de software, me apoyaría más para convertirme en Ingeniero / Investigador de Aprendizaje Automático más adelante en mi carrera?