Una forma intuitiva de pensar en Adam es en términos de coeficiente de variación (CV o simplemente incertidumbre ), que se usa ampliamente en lugar de SD para comparar la distribución de conjuntos de datos, que tienen diferentes unidades de medida o tienen las mismas unidades, pero difieren mucho en magnitud
Entonces podemos decir que para cada peso en nuestro modelo tenemos diferentes conjuntos de datos con el historial de gradientes que nos gustaría comparar. Definimos la regla de que cuanto mayor sea la distribución de estas distribuciones (mayor incertidumbre, CV), menor será la tasa de aprendizaje.
Los autores de Adam están escribiendo.
“Con un ligero abuso de la terminología, llamaremos a la relación [matemática] \ frac {\ hat {m_t}} {\ sqrt {\ hat {v_t}}} [/ matemática] la relación señal-ruido (SNR) ”
SNR se define como [math] SNR = \ frac {\ mu} {\ sigma} [/ math], donde [math] \ mu [/ math] es la media y [math] \ sigma [/ math] es el estándar desviación. Mientras que en Adán [matemáticas] v_t [/ matemáticas] se define como el gradiente al cuadrado, y no como la desviación al cuadrado de la media.
Para comprender mejor cómo funciona “SNR” para Adam, podemos tratar de pensar en v como [math] \ sqrt {\ hat {v_t}} \ approx | \ hat {m_t} | + \ sqrt {\ hat {SD_t}} [/ math] donde [math] \ sqrt {\ hat {SD_t}} [/ math] es la desviación estándar.
Luego, para estimar [math] SD_t [/ math] podemos modificar el promedio de ejecución de [math] v_t [/ math] para incluir [math] (g_t-m_t) ^ 2 [/ math] en lugar de [math] g_t ^ 2 [/mates].
- [matemáticas] m_ {t + 1} = \ beta_1 \ cdot m_t + (1 – \ beta_1) \ cdot g_t [/ matemáticas]
- [matemáticas] SD_ {t + 1} = \ beta_2 \ cdot SD_t + (1- \ beta_2) \ cdot (g_t-m_t) ^ 2 [/ matemáticas]
- [matemáticas] \ theta_ {t + 1} = \ theta_t – \ alpha \ cdot \ frac {\ hat {m_t}} {| \ hat {m_t} | + \ sqrt {\ hat {SD_t}} + \ epsilon} [/ math]
Si agregamos explícitamente la corrección de sesgo en la ecuación. 3
4. [matemáticas] \ theta_ {t + 1} = \ theta_t – \ alpha \ cdot \ frac {m_t} {| m_t | + \ frac {1- \ beta_1} {\ sqrt {1- \ beta_2}} \ cdot \ sqrt {SD_t} + \ epsilon} [/ math]
Como puede ver, esta corrección de sesgo no es más que agregar más peso a la desviación estándar que a la media.
También puede ver que podemos reescribir aún más la ecuación. 4 en términos de coeficiente de variación
5. [matemáticas] \ theta_ {t + 1} = \ theta_t – \ alpha \ cdot \ frac {sign (m_t)} {1 + \ frac {1- \ beta_1} {\ sqrt {1- \ beta_2}} \ cdot \ frac {\ sqrt {SD_t}} {| m_t |} + \ epsilon} = \ theta_t – \ alpha \ cdot \ frac {sign (m_t)} {1 + \ frac {1- \ beta_1} {\ sqrt { 1- \ beta_2}} \ cdot CV + \ epsilon} [/ math]
Entonces, como se escribió anteriormente, cuanto mayor sea la incertidumbre (CV), menor será la tasa de aprendizaje
Para volver a la definición original de la regla de actualización tal como fue definida por los autores de Adam, simplemente podemos omitir “1” en el denominador y usar v en lugar de CV