Hay dos factores que afectan la magnitud de los gradientes: los pesos y las funciones de activación (o más precisamente, sus derivadas) a través de las cuales pasa el gradiente.
Si cualquiera de estos factores es menor que 1, entonces los gradientes pueden desaparecer con el tiempo; Si es mayor que 1, puede ocurrir una explosión. Por ejemplo, la derivada de tanh es [math] <1 [/ math] para todas las entradas excepto 0; sigmoide es aún peor y siempre es [matemática] \ leq 0.25 [/ matemática].
En la recurrencia del LSTM, la función de activación es la función de identidad con una derivada de 1.0. Por lo tanto, el gradiente propagado hacia atrás no se desvanece ni explota al pasar, sino que permanece constante.
El peso efectivo de la recurrencia es igual a la activación de la puerta olvidada . Entonces, si la puerta de olvido está activada (activación cercana a 1.0), entonces el gradiente no desaparece. Como la activación de la puerta de olvidar nunca es [matemática]> 1.0 [/ matemática], el gradiente tampoco puede explotar.
Por eso, LSTM es tan bueno para aprender dependencias de largo alcance.
- ¿Los salarios mínimos / de vida perjudican a los trabajadores debido a la mayor mecanización y automatización?
- ¿Qué es la inteligencia artificial y cómo podemos programarla?
- ¿Qué otras funciones, como la función sigmoidea, se utilizan en el aprendizaje automático?
- ¿Por qué Noam Chomsky es tan pesimista sobre el progreso en Inteligencia Artificial?
- ¿Es posible que con los recientes avances repentinos en IA realmente hayamos superado la singularidad descrita por Kurzweil y otros?