tanh es solo una de esas funciones que pueden proporcionar una no linealidad, de modo que toda la red neuronal se puede usar para aproximación universal [1]. En cuanto a por qué usar tanh en lugar de sigmoides u otras no linealidades, citando a Yann LeCun et al. [2] abajo:
Para minimizar el tiempo de aprendizaje, se debe evitar el uso de entradas medias distintas de cero. Ahora, en lo que respecta al vector de señal [matemáticas] x [/ matemáticas] aplicado a una neurona en la primera capa oculta de un perceptrón multicapa, es fácil eliminar la media de cada elemento de [matemáticas] x [/ matemáticas] antes de su aplicación a la red. Pero, ¿qué pasa con las señales aplicadas a las neuronas en las capas restantes ocultas y de salida de la red? La respuesta a esta pregunta radica en el tipo de función de activación utilizada en la red. Si la función de activación no es simétrica, como en el caso de la función sigmoidea, la salida de cada neurona se limita al intervalo [matemática] [0,1] [/ matemática]. Tal elección introduce una fuente de sesgo sistemático para aquellas neuronas ubicadas más allá de la primera capa de la red. Para superar este problema, necesitamos utilizar una función de activación antisimétrica, como la función tangente hiperbólica. Con esta última opción, se permite que la salida de cada neurona asuma valores positivos y negativos en el intervalo [matemática] [- 1,1] [/ matemática], en cuyo caso es probable que su media sea cero. Si la conectividad de la red es grande, el aprendizaje de propagación hacia atrás con funciones de activación antisimétrica puede generar una convergencia más rápida que un proceso similar con funciones de activación no simétricas, para lo cual también hay evidencia empírica.
Notas al pie
- ¿Qué tan importante es el aprendizaje profundo en la conducción autónoma?
- ¿Cuáles son los mejores clasificadores de código abierto para detectar spam, basura y blasfemias en el contenido generado por el usuario, como los tweets?
- ¿Cuáles son los primeros usos de la regresión logística?
- Para comenzar en los roles de la ciencia de datos, ¿los cursos de Jigsaw Academy o Coursera son lo suficientemente buenos?
- ¿Hay grupos de investigación trabajando en aprendizaje profundo teórico?
[1] Teorema de aproximación universal – Wikipedia
[2] Propiedades de segundo orden de las superficies de error: tiempo de aprendizaje y generalización