En una unidad LSTM, ¿cuál es la razón detrás del uso de una activación de tanh?

tanh es solo una de esas funciones que pueden proporcionar una no linealidad, de modo que toda la red neuronal se puede usar para aproximación universal [1]. En cuanto a por qué usar tanh en lugar de sigmoides u otras no linealidades, citando a Yann LeCun et al. [2] abajo:

Para minimizar el tiempo de aprendizaje, se debe evitar el uso de entradas medias distintas de cero. Ahora, en lo que respecta al vector de señal [matemáticas] x [/ matemáticas] aplicado a una neurona en la primera capa oculta de un perceptrón multicapa, es fácil eliminar la media de cada elemento de [matemáticas] x [/ matemáticas] antes de su aplicación a la red. Pero, ¿qué pasa con las señales aplicadas a las neuronas en las capas restantes ocultas y de salida de la red? La respuesta a esta pregunta radica en el tipo de función de activación utilizada en la red. Si la función de activación no es simétrica, como en el caso de la función sigmoidea, la salida de cada neurona se limita al intervalo [matemática] [0,1] [/ matemática]. Tal elección introduce una fuente de sesgo sistemático para aquellas neuronas ubicadas más allá de la primera capa de la red. Para superar este problema, necesitamos utilizar una función de activación antisimétrica, como la función tangente hiperbólica. Con esta última opción, se permite que la salida de cada neurona asuma valores positivos y negativos en el intervalo [matemática] [- 1,1] [/ matemática], en cuyo caso es probable que su media sea cero. Si la conectividad de la red es grande, el aprendizaje de propagación hacia atrás con funciones de activación antisimétrica puede generar una convergencia más rápida que un proceso similar con funciones de activación no simétricas, para lo cual también hay evidencia empírica.

Notas al pie

[1] Teorema de aproximación universal – Wikipedia

[2] Propiedades de segundo orden de las superficies de error: tiempo de aprendizaje y generalización

Tanh restringe la entrada entre (-1,1) y su derivada tiene un valor entre 0 y 1 como se muestra en el gráfico a continuación.

Pocos otros detalles se describen a continuación:

  1. Tanh converge más rápido.
  2. El cálculo de gradiente es menos costoso.
  3. Mejor manejo del problema de gradiente de fuga [1] que sigmoide.

Notas al pie

[1] Redes neuronales y aprendizaje profundo

Como todas las capas de redes neuronales necesitan una función de activación para crear no linealidad en la entrada, siempre la necesitará. Tanh funciona mejor con LSTM por algunas razones:

  • Su valor está restringido entre -1 y 1
  • Su gradiente es menos costoso computacional

El tanh decide qué valores agregar al estado, con la ayuda de la puerta sigmoidea.

Echa un vistazo a la gran publicación de blog de colah sobre LSTM: http://colah.github.io/posts/201

More Interesting

¿Vale la pena probar PCA en sus datos antes de alimentar a SVM?

¿Qué es más poderoso, la red neuronal convolucional o la red artificial? ¿Cuál es más conveniente de usar?

¿El aprendizaje automático como campo todavía está en su infancia, o ya es sofisticado y está bien desarrollado?

Puede aprendizaje no supervisado puede utilizar para determinar si alguien de la escritura / arte es más creativo que la escritura / arte de la mayoría de la gente?

¿Qué algoritmo sería bueno para asignar una probabilidad a la coincidencia de dos nombres (John Doe = Mr. Jonathan M Doe II)?

¿Cuál es la diferencia entre clasificación (binaria y multiclase), regresión y agrupamiento?

¿Cuál es un buen conjunto de datos para probar mi clasificador vecino más cercano K?

¿Cuál es el mejor método para la reducción de dimensionalidad y la selección / extracción de características en datos de espectrometría de masas?

¿Cuáles son algunos avances interesantes sobre las matemáticas del aprendizaje profundo?

¿Qué tema es adecuado para un taller de aprendizaje automático para estudiantes de secundaria típicos?

¿La variable de tiempo muestra una conexión recurrente en RNN?

Con la introducción de la inteligencia artificial, ¿podrán las computadoras tener un alto coeficiente intelectual?

¿Qué modelo da un error de predicción más bajo cuando se usa R?

¿Por qué el submuestreo de características u observaciones mejora el rendimiento de GBM?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?