Las redes neuronales tienen que implementar funciones de mapeo complejas, por lo tanto, necesitan funciones de activación que no sean lineales para incorporar la muy necesaria propiedad de no linealidad que les permite aproximar cualquier función. Una neurona sin una función de activación es equivalente a una neurona con una función de activación lineal dada por.
[matemáticas] \ Phi (x) = x [/ matemáticas]
Tal función de activación no agrega no linealidad, por lo tanto, toda la red sería equivalente a una sola neurona lineal. Es decir, tener una red lineal multicapa es equivalente a un nodo lineal.
- Necesito aprender los conceptos básicos del aprendizaje automático rápidamente, para mi trabajo. ¿Dónde empiezo?
- ¿Qué le falta a la comunidad de aprendizaje automático?
- ¿Puede la IA en su etapa de desarrollo actual tener la capacidad de reducir la complejidad mediante el desarrollo de abstracciones?
- Si los humanos eventualmente crean cyborgs de IA de nivel humano que cumplen nuestras órdenes, ¿la mayoría de la humanidad finalmente podrá dejar de trabajar para ganarse la vida?
- ¿Cuál es la diferencia entre una red neuronal, propagación hacia atrás, red convolucional, aprendizaje profundo y aprendizaje extremo?
Por lo tanto, no tiene sentido construir una red multicapa con funciones de activación lineal, es mejor que solo un nodo haga el trabajo. Para empeorar las cosas, un solo nodo lineal no es capaz de manejar datos no separables, lo que significa que no importa cuán grande pueda ser una red lineal multicapa, nunca podrá resolver el clásico problema XOR o cualquier otro problema no lineal.
Las funciones de activación también son importantes para aplastar la suma ponderada linealmente ilimitada de las neuronas. Esto es importante para evitar que grandes valores se acumulen en la jerarquía de procesamiento.
Luego, por último, las funciones de activación son funciones de decisión, la función de decisión ideal es la función de paso lateral. Pero esto no es diferenciable, por lo tanto, se han utilizado versiones más suaves, como la función sigmoide, simplemente por el hecho de que son diferenciables, lo que las hace ideales para algoritmos de optimización basados en gradientes.
Espero que esto ayude.