La idea básica detrás de los multiplicadores de Lagrange es que puede convertir un problema de optimización restringido en un problema de optimización sin restricciones. Entonces, el siguiente problema limitado
[matemáticas] \ min_ {x} f (x) [/ matemáticas]
st [matemáticas] g (x) = 0 [/ matemáticas]
- ¿Qué es el análisis de componentes principales?
- ¿Cuándo es PyTorch más útil en comparación con TensorFlow y viceversa?
- ¿Cómo funciona la función softmax en el campo AI?
- ¿El filtrado colaborativo se considera aprendizaje automático?
- Modelos ocultos de Markov: ¿cómo se obtiene el siguiente valor observado pronosticado de un HMM?
se puede convertir en
[matemáticas] \ min_ {x, \ lambda} f (x) + \ lambda g (x) [/ matemáticas]
Aquí hay alguna intuición de por qué los dos son equivalentes.
Considere los contornos de la función f (x):
Aquí, las curvas azules, de adentro hacia afuera, corresponden a todos los valores de x donde [matemáticas] f (x) = 2, f (x) = 3, f (x) = 4 [/ matemáticas], y así sucesivamente. La curva negra es la restricción [matemática] g (x) = 0 [/ matemática]. Por lo tanto, desea encontrar el mínimo de [math] f (x) [/ math] tal que se encuentre en la línea negra.
Un poco de reflexión le dirá que el punto que nos interesa debe estar donde una de las curvas azules se encuentra tangencialmente con la línea negra, como en el siguiente diagrama:
Para ver por qué las curvas deben tocarse, observe que cualquier curva con [matemática] f (x) <5 [/ matemática] nunca toca la línea negra, por lo que el punto óptimo no puede estar en ninguna de esas curvas. Para cualquier curva que cruce la línea negra, debe haber una curva más pequeña que también toque / cruce la línea negra. Y estas curvas más pequeñas tendrán un valor menor de [math] f (x) [/ math], por lo que la curva que cruza la línea negra no puede tener el minimizador de [math] f (x) [/ math]. La única curva para la que no hay curvas más pequeñas es la curva que toca [matemática] g (x) = 0 [/ matemática].
Ahora, con esa intuición, y el hecho de que los gradientes son perpendiculares a las curvas dibujadas anteriormente, los gradientes de [matemática] f (x) [/ matemática] y [matemática] g (x) [/ matemática] deben ser paralelos (o antiparalelo). Es decir,
[matemáticas] \ nabla f (x) = k \ nabla g (x) [/ matemáticas]
o
[matemáticas] \ nabla f (x) + \ lambda \ nabla g (x) = 0 [/ matemáticas]
Ahora, podemos definir la función lagrangiana como
[matemáticas] L (x, \ lambda) = f (x) + \ lambda g (x) [/ matemáticas]
El minimizador de esto debe satisfacer [math] \ nabla_ {x} L = 0 [/ math], que es la misma ecuación que la anterior. Entonces, resolver el problema restringido original es lo mismo que minimizar la función lagrangiana sin restricciones.