Tiene que ver con cómo funcionan las funciones.
Imagine una red neuronal sin una función de activación. todas las neuronas se comportan siguiendo una función que se ve así: [matemáticas] (\ sum \ limits_ {i = 1} ^ n v_i w_i) + b [/ matemáticas], donde [matemáticas] n [/ matemáticas] es el número de neuronas en la capa anterior, [math] v_n [/ math] es el valor de la enésima neurona, [math] w_n [/ math] es el peso de la enésima neurona y [math] b [/ math] es el sesgo. Es esencialmente un polinomio de primer grado, y no importa cuánto lo intentes, cada vez que anidas un polinomio de ese tipo en otro, obtienes un polinomio de primer grado, porque por definición, una función polinómica de primer grado nunca multiplica la variable por sí mismo, y nunca multiplica múltiples variables juntas. ¿Adivina cuál es la representación cartesiana de un polinomio de primer grado? Es una linea recta; así que, no importa cuánto lo optimices, una red como esa siempre será lineal.
Las funciones de activación, al no ser lineales, pueden representar bastante bien otros tipos de funciones, y aquí hay una demostración:
- ¿El aprendizaje de refuerzo se hará grande?
- ¿Cuáles son algunos textos recientes sobre el aprendizaje a gran escala?
- ¿Dónde y cómo debo acercarme al capital si tengo una muy buena pieza de IA que produce 1-3% diario en Forex?
- ¿Cuál es la mejor manera de aprender robótica completa? ¿Cómo obtengo los conocimientos básicos de robótica para poder construir cualquier tipo de robot?
- A partir de octubre de 2017, ¿cuál es el estado de distill.pub?
“Función” es una función que quiero aproximar (es [matemática] min (0, x ^ 2 [/ matemática]))
“ReLU” es una función de activación ampliamente utilizada, que se puede expresar como min (0, x).
“Aprox” es mi aproximación de la función usando solo ReLU. Es [matemática] ReLU (x) / 2 + ReLU (x – 0.5) + ReLU (x – 1) + ReLU (x – 1.5) [/ math].