¿Cómo sabes que tienes que “maximizar” el lagrangiano para resolver el problema dual?

Para un problema general de Primal en la siguiente forma,

[matemáticas] \ text {Minimizar} f (x) [/ matemáticas]

[matemáticas] \ text {st} g (x) \ leq 0, \ text {} x \ en X [/ math]
¿Qué es la indexación semántica latente?
¿Cuáles son los dominios en los que las técnicas de aprendizaje profundo podrían aplicarse además del procesamiento de la visión por computadora y el lenguaje / habla?
¿Por qué la función sigmoidea rara vez se usa en capas ocultas recientemente?
He completado el curso para el aprendizaje automático. Quiero hacer un proyecto corto sobre aprendizaje automático. Actualmente estoy haciendo BE en CS. ¿Qué materia debo elegir?
¿Tiene alguna implementación de clasificación de una clase utilizando la red neuronal?

El problema dual se escribe como,

[matemáticas] \ text {Maximizar} \ phi (\ lambda) [/ matemáticas]

[matemáticas] \ text {st} \ lambda \ geq 0 [/ matemáticas]

donde, [math] \ phi (\ lambda) = inf_ {x \ in X} \ {f (x) + \ lambda g (x) \} [/ math] se llama lagrangiana del problema primario, con [math ] \ lambda [/ math] es un vector de multiplicadores lagrangianos .

El hecho de que el problema dual tiene el lagrangiano en la función objetivo podría probarse utilizando el Teorema de la dualidad débil que establece que:

Si [math] \ bar {x} [/ math] y [math] \ bar {u} [/ math] son soluciones factibles del problema primario (con función objetivo [math] f (x) [/ math]) y dual problema (con función objetivo [matemática] g (u) [/ matemática]) respectivamente, luego [matemática] g (\ bar {u}) \ leq f (\ bar {x}) [/ matemática].

Es bastante fácil notar que la forma en que se define lagrangiana se ajusta a la propiedad de la dualidad débil. Esto muestra POR QUÉ se usa lagrangiana como el doble objetivo.

[matemáticas] \ phi (\ bar {\ lambda}) = inf_ {x \ in X} \ {f (x) + \ bar {\ lambda} g (x) \} [/ math]

[matemáticas] \ Rightarrow \ phi (\ bar {\ lambda}) \ leq \ {f (\ bar {x}) + \ bar {\ lambda} g (\ bar {x}) \}, \ text {as} \ bar {x} \ en X [/ matemáticas]

[matemática] \ Rightarrow \ phi (\ bar {\ lambda}) \ leq f (\ bar {x}), \ text {as} g (\ bar {x}) \ leq 0 [/ math]

Llegando al punto sobre por qué está MAXIMIZADO, necesitamos recordar el corolario que establece que, si [matemática] x ^ * [/ matemática] y [matemática] u ^ * [/ matemática] son soluciones óptimas de problema primario y dual problema respectivamente, entonces [matemáticas] g (u ^ *) = f (x ^ *) [/ matemáticas]. Por lo tanto, [math] g (u ^ *) [/ math] es el valor máximo de [math] g (\ bar {u}) [/ math] dentro de la región factible.

Entonces, necesitamos encontrar el valor máximo de la función de doble objetivo, que es el lagrangiano en nuestro caso.

Resumiendo los dos puntos mencionados anteriormente, concluimos que requerimos la MAXIMIZACIÓN del Lagrangiano para obtener la solución óptima del problema dual.

¿Cuáles son algunos ejemplos de aprendizaje automático en operaciones de computación en la nube?

¿Cuál es la diferencia entre regresión logística y factorización matricial?

¿Qué tipo de algoritmo de aprendizaje profundo utiliza IBM Watson para la clasificación del lenguaje natural? ¿Utiliza CNN o RNN?

Estoy creando una plataforma de transmisión en vivo: ¿cómo puedo conectarme y usar varias cámaras web al mismo tiempo?

¿Cuál es la mejor manera de personalizar los artículos para un usuario en función de su historial de lectura?

¿Por qué están recibiendo tanta atención Machine Learning + Big Data?

El costo óptimo de operación (representado por el objetivo primario) cuando las restricciones se pueden suavizar es “menor o igual que” cuando no se pueden suavizar.
La idea de la dualidad lagrangiana es suavizar las restricciones agregando el costo de los términos de violación en el objetivo primario con cada restricción.
Lagrangian representa el costo total, mientras que Lagrangian dual representa el costo “óptimo” en función de los precios de violación / suavización. Queremos “maximizar” el costo / penalización de suavización para garantizar que hemos suavizado las restricciones “lo menos posible” mientras tratando de reducir el costo óptimo.

Maximice más formalmente para obtener un límite inferior lo más “ajustado” posible.

Ps: en este sentido, la brecha de dualidad representa la ventaja mínima posible de arbitraje (0 para una fuerte dualidad).

Avikant Bhardwaj

More Interesting

Cómo interpretar la trama de ACF

¿Cuáles son algunos proyectos que puedo hacer mientras aprendo aprendizaje automático?

¿Qué sucederá si divido mis datos en 50:50 para capacitación y pruebas?

¿Cuáles son los libros de texto clásicos y de lectura obligatoria en las estadísticas?

¿Cómo se puede aplicar RL (método de gradiente de política) al problema de selección de subconjunto, donde cada prueba consiste en seleccionar un subconjunto de elementos de un conjunto más grande?

¿Cuál es la diferencia entre el análisis factorial y el análisis de conglomerados?

¿Cuál es una pista adecuada para la clasificación de documentos con MATLAB?

¿Los científicos de datos y el ingeniero de aprendizaje automático necesitan saber implementar algoritmos ML / DL desde cero o simplemente usar las bibliotecas existentes en producción?