¿Cuál es la fórmula de disminución de la tasa de aprendizaje más popular en el aprendizaje automático?

La descomposición más común que he visto para el descenso de gradiente estocástico (SGD) en una investigación reciente es un cronograma de disminución gradual basado en los resultados de validación. Es decir, la tasa de aprendizaje comienza en 0.01 y se reduce en un orden de magnitud (por ejemplo, 0.001, 0.0001, 0.00001) cada vez que el error de validación deja de disminuir. El proceso se detiene cuando la tasa de aprendizaje alcanza un límite inferior (por ejemplo, 1e-6).

Pero el panorama general es que SGD con una simple desintegración no se usa a menudo para entrenar redes neuronales profundas. En cambio, uno usa tasas de descomposición por parámetro como RMSProp o Adam o Adamax para evitar que los parámetros languidezcan en mesetas de costos. Estas técnicas se aproximan a los métodos de segundo orden (por ejemplo, el descenso de gradiente conjugado) y pueden proporcionar un poco de aceleración en el aprendizaje.

Cada vez que uno encuentra que la pérdida aumenta, uno hace que la tasa de aprendizaje disminuya exponencialmente por un factor de 0.8 o algo así. Este es el trabajo más fácil y empírico la mayor parte del tiempo, como uno puede imaginar. El uso de este esquema se da por supuesto que los datos de entrenamiento se barajan lo suficiente.

Los esquemas más sofisticados incluyen “Adam”, “RMSProp”, “Momentum”, “Nesterov’s Momentum”, etc., que tienen en cuenta la cantidad de pasos para los que se ha entrenado el modelo, el tamaño del modelo, los pasos de entrenamiento de calentamiento, etc. Algunos usan solo derivadas parciales de primer orden y otros usan derivadas parciales de segundo orden, como el método de Newton. Algunos de estos están teóricamente justificados, algunos marginalmente mejores que la humilde decadencia exponencial en la práctica sin mucha garantía teórica.