Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock? La tecnología cambia la vida futura

Optimización matemática: ¿Por qué el método de descenso más pronunciado usando el descenso de gradiente típico tiene problemas con la función de Rosenbrock?

Lo primero que hay que entender es que mediante el diseño del método de descenso más empinado, los pasos secuenciales siempre eligen caminos perpendiculares . Esto significa que la primera opción de ruta reduce el conjunto de todas las opciones potenciales.

Ahora mirando la función de Rosenbrock, podemos ver que tiene un valle estrecho y de fondo plano que se acerca al mínimo global en (1,1). A continuación se muestra una representación del método de gradiente más pronunciado que se acerca a este mínimo. Vemos que la primera opción de ruta, que sigue el gradiente hacia las orillas del valle, restringe nuestras opciones futuras de ruta de tal manera que no podemos elegir la dirección óptima una vez que estamos en el valle. Sin embargo, todavía estamos obligados por nuestro requisito de elegir caminos perpendiculares. Por lo tanto, el método de descenso más empinado zigzaguea a lo largo del fondo del valle, haciendo que la función de Rosenbrock sea particularmente desafiante para el método de descenso más empinado porque el camino óptimo es uno que el método no puede elegir. Tengo entendido que cualquier función con un valle plano y curvo que conduzca al mínimo global presentará dificultades similares para el descenso más empinado.

Recorrido del gradiente más empinado en el valle que se aproxima (1,1), reproducido de [1]. Observe cómo el enfoque zigzaguea hacia el mínimo global, y se ve obligado a moverse en direcciones perpendiculares.

[1] “Banana-SteepDesc” por PA Simionescu – Wikipedia es (página sobre descenso de gradiente: Archivo: Banana-SteepDesc.gif). Licenciado bajo CC BY-SA 3.0 a través de Wikimedia Commons – Archivo: Banana-SteepDesc.gif – Wikimedia Commons.

Aprendizaje automáticoAprendizaje profundoOptimización matemáticaRedes neuronales artificiales