Desafortunadamente, el uso de tamaños de paso constantes en el descenso de gradiente estocástico (SGD) generalmente no garantiza la convergencia al óptimo incluso para objetivos agradables (por ejemplo, suave y fuertemente convexo), ya que el ruido de los gradientes estocásticos generalmente le proporcionará iteraciones que se mueven demasiado. cerca del óptimo (en contraste, para gradientes exactos, la magnitud se acercará a cero a medida que se acerque al óptimo, de modo que los tamaños de paso constantes puedan funcionar, vea ¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente por lotes? )
De hecho, la teoría generalmente establece que es necesario reducir el tamaño de los pasos para lograr la convergencia (en expectativa) con SGD. Esto normalmente se refleja en las condiciones de aproximación estocástica [matemáticas] \ sum_t \ gamma_t = \ infty [/ matemáticas] y [matemáticas] \ sum_t \ gamma_t ^ 2 <\ infty [/ matemáticas] en los tamaños de paso (positivos) [matemáticas] \ gamma_t [/ math]. Esto garantiza que la variación de las actualizaciones se reduzca hacia el final (segunda condición), pero no demasiado pequeña para que pueda converger al óptimo (primera condición).
En la práctica, estas condiciones a menudo son limitantes, ya que el tamaño del paso puede decaer a cero muy rápidamente y la optimización se atasca, por lo que es bastante común mantener un tamaño de paso grande / constante y decaerlo de vez en cuando (por ejemplo, después un paso por encima de su conjunto de datos en el aprendizaje automático. En el aprendizaje profundo, las personas a veces confían en el error de validación para decidir cuándo disminuirlo).
- ¿Las implementaciones físicas de las redes neuronales son claramente preferibles a las GPU?
- ¿Es posible asegurar trabajos solo en base a la experiencia en aprendizaje automático sin ser un ingeniero de software adecuado?
- ¿Cuál es el método más popular para clasificar los temas de los artículos de noticias?
- ¿Conoces algún software que implemente cálculos de los últimos k vectores singulares de matriz dispersa de entrada? Solía irlba, pero que yo sepa, solo calcula los primeros k vectores singulares
- ¿Qué compañías con sede en Dallas están desarrollando y / o invirtiendo en tecnologías de Inteligencia Artificial / Aprendizaje Automático?
Dicho esto, también puede mostrar que ejecutar SGD con un tamaño de paso constante puede acercarlo bastante al óptimo, y de hecho, la distancia al óptimo (en valores de función) será proporcional al tamaño del paso (y a la varianza de los gradientes), por lo que es razonable ejecutar SGD con un tamaño de paso constante hasta que casi converja, luego reducir a la mitad el tamaño del paso, alcanzar la convergencia nuevamente y así sucesivamente. Una alternativa para reducir el tamaño de los pasos es reducir la varianza de los gradientes, por ejemplo, utilizando mini lotes cada vez más grandes. Consulte [1606.04838] Métodos de optimización para el aprendizaje automático a gran escala para obtener una descripción general.
En algunos casos, promediar las estimaciones de sus parámetros (consulte ¿Cómo funciona el Decente gradiente estocástico promediado (ASGD)?) Puede ayudarlo a lograr una mejor tasa de convergencia al usar tamaños de paso constantes, en particular cuando se usa la pérdida al cuadrado y la pérdida logística (para el este último, se necesita una regla de actualización modificada) [1].
En el caso de la minimización empírica del riesgo en un conjunto de datos finito (típico en el aprendizaje automático), existen variantes de SGD que intentan usar información pasada para reducir la varianza, y esto también le permite usar un tamaño de paso constante en algunas condiciones ( ver, por ejemplo, los algoritmos SAG [2] y SVRG [3]).
Notas al pie
[1] [1306.2119] Aproximación estocástica lisa no fuertemente convexa con tasa de convergencia O (1 / n)
[2] [1309.2388] Minimización de sumas finitas con el gradiente promedio estocástico
[3] Descenso acelerado de gradiente estocástico utilizando reducción predictiva de la varianza