La descomposición más común que he visto para el descenso de gradiente estocástico (SGD) en una investigación reciente es un cronograma de disminución gradual basado en los resultados de validación. Es decir, la tasa de aprendizaje comienza en 0.01 y se reduce en un orden de magnitud (por ejemplo, 0.001, 0.0001, 0.00001) cada vez que el error de validación deja de disminuir. El proceso se detiene cuando la tasa de aprendizaje alcanza un límite inferior (por ejemplo, 1e-6).
Pero el panorama general es que SGD con una simple desintegración no se usa a menudo para entrenar redes neuronales profundas. En cambio, uno usa tasas de descomposición por parámetro como RMSProp o Adam o Adamax para evitar que los parámetros languidezcan en mesetas de costos. Estas técnicas se aproximan a los métodos de segundo orden (por ejemplo, el descenso de gradiente conjugado) y pueden proporcionar un poco de aceleración en el aprendizaje.
- ¿Cómo va a explicar la paravirtualización a un laico?
- ¿Cuál es el mejor camino a seguir como estudiante de primer año para ingresar a la especialidad de CS?
- Como informático con concentración en seguridad de la información, ¿qué trabajos me esperan?
- ¿Cuáles son algunos algoritmos geniales de computadora?
- ¿Cómo se usan los minterms y maxterms en el álgebra booleana en circuitos digitales reales (en detalle)?