¿Cuál es el papel de la función de activación no lineal (función sigmoidea) en las redes neuronales?

Las funciones de activación son una característica extremadamente importante de las redes neuronales artificiales. Básicamente deciden si una neurona debe activarse o no. Si la información que está recibiendo la neurona es relevante para la información dada o debe ser ignorada.

La función de activación es la transformación no lineal que hacemos sobre la señal de entrada. Esta salida transformada se envía a la siguiente capa de neuronas como entrada.

Sigmoideo

La sigmoide es una función de activación ampliamente utilizada. Es de la forma

f (x) = 1 / (1 + e ^ -x)

Tanh

La función tanh es muy similar a la función sigmoidea. En realidad, es solo una versión escalada de la función sigmoidea.

tanh (x) = 2 sigmoide (2x) -1
Se puede escribir directamente como –
tanh (x) = 2 / (1 + e ^ (- 2x)) -1

ReLU

La función ReLU es la unidad lineal rectificada. Es la función de activación más utilizada. Se define como-

f (x) = max (0, x)

Se puede representar gráficamente como-

Fuga ReLU

La función ReLU con fugas no es más que una versión mejorada de la función ReLU. Como vimos que para la función ReLU, el gradiente es 0 para x <0, lo que hizo que las neuronas mueran por activaciones en esa región. Leaky ReLU se define para abordar este problema. En lugar de definir la función Relu como 0 para x menor que 0, la definimos como un pequeño componente lineal de x. Se puede definir como-

f (x) = hacha, x <0
= x, x> = 0

Para obtener más información, puede consultar este recurso: AI Journal

Para decirlo sin rodeos, para introducir la no linealidad en el modelo, usamos estas funciones de activación.

Sin estas funciones de activación, su red neuronal será muy similar a la de un modelo lineal (que será un mal predictor de los datos que contienen mucha no linealidad).

Para entender prácticamente, tome una red neuronal simple con parámetros etiquetados, digamos entradas (X), pesos (W_i) y salida (Y). Ahora escriba la Y para las entradas dadas, es decir, algo como esto, y = w × x. Encontrará que la ecuación de salida será simplemente una combinación lineal de entradas; consulte a continuación.

No queremos eso y es por eso que utilizamos una función de activación para introducir la no linealidad en el modelo.

Ps lo siento por la mala escritura en la imagen.

More Interesting

¿Cuándo comenzaste con la inteligencia artificial y el aprendizaje automático?

¿Qué es más realista en el futuro: una muy buena comprensión de cómo diseñar sistemáticamente redes neuronales o NN que se construyen por sí mismos?

¿Qué causó el "invierno AI" y cuáles fueron las primeras señales de advertencia? Dado el estado actual de la IA, ¿es probable que haya otro período de bajo interés en el campo? ¿Qué cuellos de botella serían la causa de eso?

¿Por qué los subtítulos generados automáticamente en YouTube son tan malos?

¿Cuál es la percepción del trabajo de aprendizaje automático y el talento en Microsoft?

¿Podemos imitar artificialmente las señales eléctricas enviadas por nuestros nervios?

¿Cuáles son los videos más inspiradores sobre inteligencia artificial y robótica?

¿Cuáles son ejemplos de mezcla y apilamiento en Machine Learning?

¿Por qué los tanques a control remoto no reemplazan a los tripulados en la guerra moderna?

¿Qué CPU es suficiente para ejecutar un robot humanoide?

¿La IA realmente refleja las capacidades cognitivas del cerebro humano?

¿Crees que algún día será posible una IA verdaderamente inteligente, inteligente e incluso emocional? ¿Qué opinas de las ramificaciones éticas de esto?

¿Cuáles son los principios para elegir estructuras para redes neuronales recurrentes?

¿Cuáles son actualmente las capacidades más altas o más impresionantes del aprendizaje automático?

¿Puede la inteligencia artificial hacerse consciente de sí misma?