¿Cómo sabes que tienes que “maximizar” el lagrangiano para resolver el problema dual?

Para un problema general de Primal en la siguiente forma,

[matemáticas] \ text {Minimizar} f (x) [/ matemáticas]

[matemáticas] \ text {st} g (x) \ leq 0, \ text {} x \ en X [/ math]

El problema dual se escribe como,

[matemáticas] \ text {Maximizar} \ phi (\ lambda) [/ matemáticas]

[matemáticas] \ text {st} \ lambda \ geq 0 [/ matemáticas]

donde, [math] \ phi (\ lambda) = inf_ {x \ in X} \ {f (x) + \ lambda g (x) \} [/ math] se llama lagrangiana del problema primario, con [math ] \ lambda [/ math] es un vector de multiplicadores lagrangianos .

El hecho de que el problema dual tiene el lagrangiano en la función objetivo podría probarse utilizando el Teorema de la dualidad débil que establece que:

Si [math] \ bar {x} [/ math] y [math] \ bar {u} [/ math] son ​​soluciones factibles del problema primario (con función objetivo [math] f (x) [/ math]) y dual problema (con función objetivo [matemática] g (u) [/ matemática]) respectivamente, luego [matemática] g (\ bar {u}) \ leq f (\ bar {x}) [/ matemática].

Es bastante fácil notar que la forma en que se define lagrangiana se ajusta a la propiedad de la dualidad débil. Esto muestra POR QUÉ se usa lagrangiana como el doble objetivo.

[matemáticas] \ phi (\ bar {\ lambda}) = inf_ {x \ in X} \ {f (x) + \ bar {\ lambda} g (x) \} [/ math]

[matemáticas] \ Rightarrow \ phi (\ bar {\ lambda}) \ leq \ {f (\ bar {x}) + \ bar {\ lambda} g (\ bar {x}) \}, \ text {as} \ bar {x} \ en X [/ matemáticas]

[matemática] \ Rightarrow \ phi (\ bar {\ lambda}) \ leq f (\ bar {x}), \ text {as} g (\ bar {x}) \ leq 0 [/ math]

Llegando al punto sobre por qué está MAXIMIZADO, necesitamos recordar el corolario que establece que, si [matemática] x ^ * [/ matemática] y [matemática] u ^ * [/ matemática] son ​​soluciones óptimas de problema primario y dual problema respectivamente, entonces [matemáticas] g (u ^ *) = f (x ^ *) [/ matemáticas]. Por lo tanto, [math] g (u ^ *) [/ math] es el valor máximo de [math] g (\ bar {u}) [/ math] dentro de la región factible.

Entonces, necesitamos encontrar el valor máximo de la función de doble objetivo, que es el lagrangiano en nuestro caso.

Resumiendo los dos puntos mencionados anteriormente, concluimos que requerimos la MAXIMIZACIÓN del Lagrangiano para obtener la solución óptima del problema dual.

El costo óptimo de operación (representado por el objetivo primario) cuando las restricciones se pueden suavizar es “menor o igual que” cuando no se pueden suavizar.
La idea de la dualidad lagrangiana es suavizar las restricciones agregando el costo de los términos de violación en el objetivo primario con cada restricción.
Lagrangian representa el costo total, mientras que Lagrangian dual representa el costo “óptimo” en función de los precios de violación / suavización. Queremos “maximizar” el costo / penalización de suavización para garantizar que hemos suavizado las restricciones “lo menos posible” mientras tratando de reducir el costo óptimo.

Maximice más formalmente para obtener un límite inferior lo más “ajustado” posible.

Ps: en este sentido, la brecha de dualidad representa la ventaja mínima posible de arbitraje (0 para una fuerte dualidad).

More Interesting

Cómo interpretar la trama de ACF

¿Cuáles son algunos proyectos que puedo hacer mientras aprendo aprendizaje automático?

¿Qué sucederá si divido mis datos en 50:50 para capacitación y pruebas?

¿Cuáles son los libros de texto clásicos y de lectura obligatoria en las estadísticas?

¿Cómo se puede aplicar RL (método de gradiente de política) al problema de selección de subconjunto, donde cada prueba consiste en seleccionar un subconjunto de elementos de un conjunto más grande?

¿Cuál es la diferencia entre el análisis factorial y el análisis de conglomerados?

¿Cuál es una pista adecuada para la clasificación de documentos con MATLAB?

¿Los científicos de datos y el ingeniero de aprendizaje automático necesitan saber implementar algoritmos ML / DL desde cero o simplemente usar las bibliotecas existentes en producción?

Cómo usar tanto algoritmos genéticos como redes neuronales artificiales en una simulación de vida artificial

Cómo entrenar una red neuronal con grandes datos

¿Cuáles son algunos casos de uso para el aprendizaje automático en realidad virtual?

¿Qué debo hacer para poder contribuir al campo de la visión por computadora y trabajar en Google en el futuro?

Cómo demostrar que una pequeña mejora en un puntaje F es estadísticamente significativa

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

¿Cuáles son las desventajas de usar un árbol de decisión para la clasificación?