Cuando utiliza una tasa de aprendizaje constante, establecida como hiperparámetro, su optimización se convierte más en un arte que en una ciencia. Una tasa de aprendizaje adaptativo calculada en cada paso está diseñada para lograr varios objetivos:
- Elimine el hiperparámetro, liberándonos de la necesidad de optimizarlo.
- Acelere el proceso de aprendizaje cuando la función de pérdida alcance una meseta
- Resolver el problema de la explosión de gradientes.
Aquí hay una comparación (eso es solo un ejemplo de lo que puede esperar usando diferentes técnicas, no una búsqueda de un método para todos)
- ¿Cuáles son las debilidades del algoritmo estándar k-means (también conocido como algoritmo de Lloyd)?
- Todos dicen que el aprendizaje automático ocupará trabajos de un gran no. de personas, ¿es esto cierto? ¿Hay algún lado positivo?
- ¿Con qué frecuencia debe verificar el conjunto de validación durante el entrenamiento de la red neuronal en función de los ejemplos de entrenamiento (cada N ejemplos de entrenamiento)?
- ¿Existe alguna justificación para usar características explícitas de usuario / elemento en la recomendación de MF?
- ¿Cuál es la diferencia entre la retropropagación y la retropropagación a través del tiempo?
Como puede ver, la diferencia puede ser realmente significativa en algunos casos.
Los métodos adaptativos más utilizados ahora son Adagrad (Duchi et al., 2011) y Adadelta (Zeiler, 2012).
No son una solución para todos los problemas, por experiencia, encuentro que el SGD de vainilla es mejor para Word2Vec y Adadelta para arquitecturas recurrentes profundas, pero YMMV.