Me parece que la mejor intuición proviene de la física. Imagine una partícula bajo gravedad que cae sobre un terreno y de repente entra en un pequeño valle, pero logra continuar, suponiendo que fue lo suficientemente rápido. El impulso de partículas actuará, en otras palabras, como un “filtro” de irregularidades locales en el terreno. En esta analogía, la partícula es la solución actual (vector de peso en ANN) y el terreno la función de costo que nos gustaría optimizar (o la estimación de la función de costo).
Cuando el gradiente sigue cambiando de dirección, el impulso suavizará las variaciones. (la cita y la trama se toman de aquí)
- ¿Cuáles son los métodos de implementación con calidad de producción para los modelos de aprendizaje automático?
- ¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?
- ¿La red neuronal profunda es realmente un aprendizaje profundo?
- ¿Es inútil seguir el aprendizaje automático como segundo año?
- ¿Cuál es el beneficio de utilizar la agrupación promedio en lugar de la agrupación máxima?
Una explicación más informativa aparece aquí en la sección “Actualizaciones de parámetros”:
La actualización de momento es otro enfoque que casi siempre disfruta de mejores tasas de convergencia en redes profundas. Esta actualización puede ser motivada desde una perspectiva física del problema de optimización. En particular, la pérdida puede interpretarse como la altura de un terreno montañoso. Inicializar los parámetros con números aleatorios es equivalente a establecer una partícula con velocidad inicial cero en alguna ubicación. El proceso de optimización puede verse como equivalente al proceso de simulación del vector de parámetros (es decir, una partícula) como rodando en el paisaje. Dado que la fuerza sobre la partícula está relacionada con el gradiente de energía potencial, la fuerza que siente la partícula es precisamente el gradiente (negativo) de la función de pérdida. Además, el gradiente (negativo) es en esta vista proporcional a la aceleración de la partícula. Tenga en cuenta que esto es diferente del SGD, donde el gradiente integra directamente la posición. En cambio, la vista física sugiere una actualización en la que el gradiente solo influye directamente en la velocidad, lo que a su vez tiene un efecto en la posición.