¿Por qué el método de Newton solo es apropiado cuando el hessiano es positivo definido?

Para elaborar sobre la respuesta anónima:

El método de Newton no solo es apropiado cuando ese es el caso, aunque esencialmente está garantizado que encontrará la solución global si el Hessian está siempre en [math] \ mathbb {S} ^ + [/ math] a través de este método. Muy a menudo, utilizamos métodos de Newton (o similares a Newton) para resolver problemas para los que ese no es el caso, ya que estos métodos se comportan muy bien.

Ahora, para la nueva información: el hecho de que el Hessian es positivo-definido en todas partes significa que la función es estrictamente convexa , en este caso el objetivo es convexo y (a menudo! Pero no siempre [1]) su solución es computable en P (la clase de complejidad).

Es una propiedad muy agradable, ya que la convexidad garantiza que las condiciones KKT (condiciones Karush – Kuhn – Tucker) para la optimización son necesarias y suficientes si también se permite la condición de Slater; lo cual es muy frecuente en la mayoría de los problemas que resolvemos.

[1] Si tiene un oráculo o cualquier función que sea O (1) para preguntar si un valor satisface las restricciones, entonces, iirc, puede resolver el problema de optimización en tiempo polinómico. Por resolver quiero decir que puedes dar la solución óptima sujeta a las restricciones o decidir que el problema es inviable o ilimitado.

Te daré dos respuestas: una respuesta corta y una respuesta larga.

Respuesta corta : el método de Newton es un problema de optimización de segundo orden. Y, una función real tiene un mínimo en [math] x (x1, x2, …) [/ math] si y solo si su gradiente es cero y Hessian es positivo semi-definido en ese punto.

Respuesta larga : mira la ecuación:

La ecuación muestra claramente que necesitamos el inverso de Hessian para calcular nuestra actualización en el método de Newton. Ahora, si Hessian no es semi-definido positivo, entonces tenemos dos casos: 1) al menos uno de los valores propios es cero 2) todos los valores propios son negativos. El primer caso claramente hará que la matriz sea singular, lo que también significa que las columnas son dependientes y sin una forma inversa. Y, el segundo caso dificulta la convergencia de la función porque todos los algoritmos de optimización trabajan fundamentalmente en la idea de que el parámetro entrenable disminuye en cada iteración. Entonces, este caso hará que nuestra optimización no tenga valor.

De hecho, el método de Newton es mucho más rápido en términos de convergencia que el descenso de gradiente debido a la información adicional de Hessian, pero aún así no es utilizable en redes neuronales porque el Hessian de la función objetivo / pérdida no está semi-definido allí. Además, calcular Hessian durante la propagación hacia atrás es un problema [matemático] O (n ^ 2) [/ matemático] muy costoso también. Traje redes neuronales porque supongo que estás siguiendo las teorías del aprendizaje automático / aprendizaje profundo y descubriste todas estas cosas.

Espero que esto ayude.

El método de Newton en general se puede ver como un método de punto fijo y en sí mismo no tiene relación con la definición positiva del hessiano. Solo requiere que el jacobiano sea no singular.

Creo que está más interesado en las condiciones críticas para resolver un problema de optimización convexa. Tenga en cuenta que en este caso, el método de Newton es simplemente una de las formas de buscar un mínimo de forma iterativa. Independientemente del método utilizado, los mínimos siempre existen cuando [math] H (x ^ *) [/ math] es Simétrico y Definitivo Positivo (SPD) donde [math] x ^ * [/ math] es el mínimo de función [ matemáticas] f: R ^ n \ rightarrow R [/ matemáticas]

Para ver por qué este es el caso, considere la expansión de la serie Taylor:

[matemáticas] f (x ^ * + s) = f (x ^ *) + \ nabla f (x ^ *) ^ Ts + \ frac {1} {2} s ^ TH_f (x ^ *) s [/ math ]

Pero [matemáticas] \ nabla f (x ^ *) = 0 [/ matemáticas]

Esto significa que

[matemáticas] f (x ^ * + s) = \ frac {1} {2} s ^ TH_f (x ^ *) s + f (x ^ *) [/ matemáticas]

Lo que a su vez significa que si [matemática] H (x ^ *) [/ matemática] es SPD entonces [matemática] f [/ matemática] “aumenta” en la vecindad de [matemática] x ^ * [/ matemática] y no importa en qué dirección viaja, lo que implica que [matemáticas] x ^ * [/ matemáticas] es un mínimo local.

No hay necesidad de respuestas tan largas como las que se dan aquí. Todo lo que necesita saber es que el método de Newton requiere que calcule el inverso de Hesse.

Suponga que su arpillera no es positiva definida. Luego, existe una matriz con un valor propio [matemático] 0 [/ matemático] que representa su arpillera con columnas linealmente dependientes y sin una inversa , lo que necesita para el método de Newton.

More Interesting

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?

¿Cómo funciona el aprendizaje profundo en tiempo real?

Como científico de datos, ¿qué te inspiró a seguir una carrera en ciencia de datos?

¿Hay tutoriales o trabajos de investigación sobre la presentación de problemas matemáticos como pseudolenguaje al algoritmo de PNL?

Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas

¿Por qué es importante la eliminación de variables en los modelos gráficos probabilísticos?

¿Cómo se puede usar una distribución como una característica para la clasificación en el aprendizaje automático?

Cómo convertirse en un cerebro cuant (un quant que usa IA)

Cómo migrar modelos de aprendizaje automático que están escritos en diferentes lenguajes de programación

Cómo construir la matriz del núcleo para un polinomio de grado finito

¿La normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente? Después de calcular los parámetros (pesos), ¿es necesario normalizar los casos de prueba proporcionados por el usuario para la predicción?

¿Cuáles son los pasos básicos del procesamiento de texto en el procesamiento del lenguaje natural para la similitud de texto?

¿Ya es posible aprender las reglas de un juego como Monopoly utilizando un aprendizaje no supervisado?

Cómo explicar intuitivamente los tensores

¿En qué se basa IBM Watson? ¿Es una alternativa interna de IBM a TensorFlow?