Sigmoid específicamente, se usa como la función de compuerta para las 3 compuertas (in, out, forget) en lstm, ya que genera un valor entre 0 y 1, no puede dejar que fluya o completar el flujo de información a través de las compuertas.
Tratar con el problema de gradiente de fuga para lstm es diferente al de una red profunda de alimentación hacia adelante. En lstm, el problema se resuelve mediante la estructura de red de un lstm, específicamente las diferentes puertas y una celda de memoria.
Para las redes profundas de avance, el problema del gradiente de desaparición se trata utilizando una función de activación diferente, unidades lineales rectificadas. Estas unidades lidian mejor con el problema común de saturación de activación que ocurre cuando se usa Sigmoid o tanh en redes profundas, lo que hace que el gradiente de fondo sea esencialmente cero cuando el paso directo se satura. Las unidades ‘relu’ no tienen este problema, además es computacionalmente menos complejo (sin funciones exponenciales como Sigmoid o tanh) y, por lo tanto, algo más rápido de calcular.
- ¿Cuál es el algoritmo más eficiente para el mejor ajuste en el problema del embalaje del contenedor (bPP)?
- ¿Qué campo debo elegir después de mi graduación en ingeniería informática?
- ¿Cómo compararías Google Research con Microsoft Research?
- ¿Qué tan factible es hacer una investigación remota en ciencias de la computación de la mejor universidad y en qué año del programa puede hacerlo?
- ¿Por qué es que cuando se requiere que los estudiantes universitarios (CS, IT o IS) realicen investigaciones / proyectos / tesis, siempre se trata del diseño y desarrollo de sistemas?