¿Cómo agrega la función de activación la no linealidad a las redes neuronales?

Tiene que ver con cómo funcionan las funciones.

Imagine una red neuronal sin una función de activación. todas las neuronas se comportan siguiendo una función que se ve así: [matemáticas] (\ sum \ limits_ {i = 1} ^ n v_i w_i) + b [/ matemáticas], donde [matemáticas] n [/ matemáticas] es el número de neuronas en la capa anterior, [math] v_n [/ math] es el valor de la enésima neurona, [math] w_n [/ math] es el peso de la enésima neurona y [math] b [/ math] es el sesgo. Es esencialmente un polinomio de primer grado, y no importa cuánto lo intentes, cada vez que anidas un polinomio de ese tipo en otro, obtienes un polinomio de primer grado, porque por definición, una función polinómica de primer grado nunca multiplica la variable por sí mismo, y nunca multiplica múltiples variables juntas. ¿Adivina cuál es la representación cartesiana de un polinomio de primer grado? Es una linea recta; así que, no importa cuánto lo optimices, una red como esa siempre será lineal.

Las funciones de activación, al no ser lineales, pueden representar bastante bien otros tipos de funciones, y aquí hay una demostración:

“Función” es una función que quiero aproximar (es [matemática] min (0, x ^ 2 [/ matemática]))

“ReLU” es una función de activación ampliamente utilizada, que se puede expresar como min (0, x).

“Aprox” es mi aproximación de la función usando solo ReLU. Es [matemática] ReLU (x) / 2 + ReLU (x – 0.5) + ReLU (x – 1) + ReLU (x – 1.5) [/ math].

De la misma manera que en otros sistemas no lineales. Un sistema lineal se define como:

[matemáticas] f (a_ {1} x_1 + a_ {2} x_2) = a_ {1} f (x_1) + a_ {2} f (x_2) [/ matemáticas]

Para agregar no linealidad a una red neuronal, uno simplemente necesita seleccionar una función de activación de manera que la expresión anterior no se satisfaga para algunas entradas. Al hacerlo, se evita que toda la red neuronal multicapa (NN) se colapse en una sola NN equivalente en capas.

Todas las funciones de activación son no lineales, incluso la unidad lineal rectificada (ReLU), porque la expresión anterior no se satisface completamente en todo el dominio de entradas a la ReLU.

Espero que esto ayude.