La función de transferencia, o función de activación, como se le llama más comúnmente, es una función monotónicamente creciente, continua y diferenciable, aplicada a la entrada ponderada (o llamémosla salida preliminar) de una neurona para producir la salida final.
Históricamente, se utilizó una función sigmoide para imitar el comportamiento observado de las neuronas reales. Más tarde se descubrió que esto conduce al problema de la desaparición de gradientes en redes neuronales profundas. Por esta razón, la función de activación más utilizada hoy en día es el rectificador, que es la función de identidad para todos los valores mayores o iguales a 0 y 0 para todos los valores negativos.
La función de activación es fundamental para la idea de redes neuronales por dos razones:
- ¿Por qué la precisión del entrenamiento de la red CNN aumenta rápidamente cuando elijo un tamaño de lote relativamente más pequeño?
- Cómo aprender y construir un chatbot inteligente basado en inteligencia artificial como Google Allo desde cero, con un mayor enfoque en el modelo de dominio cerrado basado en la recuperación y el aprendizaje de ML y NLP
- ¿Quién inventó las redes neuronales de convolución?
- ¿Cómo encuentro y uso información en el diseño de máquinas?
- ¿El aprendizaje automático es el futuro del mundo de la programación?
- Primero, si no hubiera funciones de activación, toda la red neuronal podría reducirse a un grupo de funciones lineales de la entrada de la red: una función lineal para cada neurona de salida. Entonces, sin funciones de activación, una red neuronal no podría aprender relaciones no lineales.
- Y segundo, se puede ver que cada neurona reconoce una determinada característica, con una activación de 0 que indica la ausencia de esa característica. Un valor negativo no se puede interpretar en este marco (por ejemplo, si la característica es, por ejemplo, una forma redonda, entonces un valor positivo indica la fuerza con la que la red cree que hay una forma redonda y un valor de 0 significa que no hay forma redonda. Obviamente, no puede haber menos que ninguna forma redonda).
Un punto más que me confundió al principio: cada red solo tiene una función de activación, que se utiliza para todas las neuronas en esa red.
Y dos excepciones:
- La regla de una función de activación no cuenta una posible capa SoftMax antes de la salida de red como una función de activación.
- Nada de lo dicho aquí se aplica a los Mapas autoorganizados.