¿Es necesario ajustar manualmente la tasa de aprendizaje cuando uso el método de descenso de gradiente estocástico de Adam en la práctica?

La tasa de aprendizaje es uno de los hiperparámetros que posiblemente tenga que ajustar para el problema con el que se enfrenta. Sin embargo, ajustar los hiperparámetros es esencialmente un arte oscuro que no tiene pautas claras, por lo que básicamente debe hacer prueba y error. La tasa de aprendizaje es algo relacionado con la longitud del paso para que el algoritmo de optimización alcance el siguiente vector de pesos, cuanto mayor es la longitud del paso, más lejos está el siguiente vector de peso del actual. Según su descripción de su problema, parece que los gradientes en los pesos son bastante grandes. Por lo general, una tasa de aprendizaje relativamente grande simplemente hace que el proceso de optimización se supere, al igual que un automóvil de alta velocidad persiguiendo un objetivo de movimiento lento.

Además de ajustar la tasa de aprendizaje, el procesamiento previo de datos también es importante. Por lo general, la norma infinita de sus datos de entrenamiento debe ser inferior a 1. Puede preguntarse por qué. Simplemente porque muchas constantes implementadas en el software que está utilizando están ajustadas para manejar este tipo de datos de entrada.

Entrenar una red neuronal es como cualquier otro trabajo de ingeniería, todas las teorías perfectas comienzan a descomponerse cuando se trata de prácticas. Pero algunos principios generales de ingeniería siguen siendo útiles, este es uno de mis favoritos, no lo adivine, intente verlo. En realidad, así es como resolvió su problema también. Feliz intento.