¿Cuáles son los beneficios de una tasa de aprendizaje adaptativo para redes neuronales artificiales, en comparación con agregar un término de impulso? ¿Son estos dos métodos diferentes que tienen un efecto muy similar?

Son cosas diferentes y son complementarias. Puede pensarlo así, muchos métodos de optimización iterativos, incluido el que está haciendo referencia, funcionan eligiendo una dirección para moverse y luego moviendo cierta cantidad en esa dirección. Entonces, durante cada iteración, necesitamos métodos para elegir dos cosas, la dirección de búsqueda y el tamaño del paso a lo largo de esa dirección.

Puede pensar que elegir la mejor dirección para moverse es simple. Simplemente vaya directamente a lo largo del gradiente de la función objetivo. Sin embargo, para las funciones del mundo real, esto causa mucho zigzag y resulta en una convergencia realmente lenta. Por lo tanto, los buenos métodos de optimización intentan tener en cuenta un aspecto más global de la forma de la función objetivo al elegir una dirección de búsqueda. En particular, el truco de impulso ayuda a elegir mejores direcciones de las que obtendrías con una estrategia básica de descenso de gradiente. Hay una buena discusión sobre esto en un artículo reciente de algunos de los estudiantes de Geoff Hinton: sobre la importancia de la inicialización y el impulso en el aprendizaje profundo.

Del mismo modo, elegir un buen tamaño de paso también es importante. En teoría, le gustaría encontrar el tamaño del paso que le brinda la mayor mejora en su función objetivo cuando da ese paso en la dirección de búsqueda. Muchos algoritmos de optimización de libros de texto usan algo llamado búsqueda de línea para elegir de forma adaptativa el tamaño del paso. En muchos casos, tener un buen método de búsqueda de línea puede marcar una gran diferencia en la velocidad y precisión de optimización. Sin embargo, en algunos casos la búsqueda de línea puede ser costosa o difícil de hacer. En particular, realizar cualquier tipo de búsqueda de línea de alta calidad es generalmente demasiado costoso en el contexto de los algoritmos de descenso de gradiente estocástico utilizados para optimizar las redes neuronales. Por lo tanto, hay un gran desacuerdo sobre la mejor manera de elegir el tamaño del paso en este caso. Muchas personas simplemente lo arreglan a una constante o lo descomponen lentamente.