Cómo comprender mejor las funciones de activación en el aprendizaje automático, especialmente las matemáticas detrás de ellas

Los perceptrones con funciones escalonadas laterales proporcionan un ejemplo intuitivo de funciones de activación, dada una neurona:

[matemáticas] y = \ varphi (w ^ {T} x + b) [/ matemáticas]

[matemáticas] y = \ varphi (a) [/ matemáticas]

Donde [math] \ varphi [/ math] = función de activación y [math] a = w ^ {T} x + b [/ math]

Durante el tiempo de los perceptrones multicapa (MLP), la función de paso lateral estaba siendo utilizada como la función de activación, pero ¿para qué?

Para la toma de decisiones, sabemos que las decisiones son discretas, ¿verdad? Podemos decidir ir a la iglesia o no, podemos decidir ver una película o no. Entonces, la tarea de un nodo de procesamiento simple es simplemente decidir si una característica particular está presente o no. La función de paso lateral es una función de decisión binaria natural.

Pero, ¿cómo se entrena una red neuronal (NN) llena de tales perceptrones? El enfoque más intuitivo sería hacer pequeñas perturbaciones en los parámetros de peso y ver cómo se comporta la red. Pero hay un problema con la función de paso lateral. ¿Puedes resolverlo? Tómese su tiempo y piense en ello antes de continuar leyendo.

Bien, ¿has resuelto el problema con la función de paso lateral? Si no, no te preocupes.

En el aprendizaje automático (ML), abordamos el aprendizaje como un problema de optimización definiendo una función objetivo / pérdida / costo diferenciable [matemática] L [/ matemática]. Por lo tanto, debemos descubrir cómo la variación de cada peso en cantidades muy pequeñas afectará la función de pérdida [matemáticas] L [/ matemáticas] que necesitamos para minimizar esta pérdida. Por lo tanto, podemos calcular un gradiente de la pérdida con respecto a cada peso para encontrar la dirección en la que ajustar los pesos en un enfoque de optimización (aprendizaje) basado en el descenso del gradiente.

Asumiendo una red de 2 capas, capa de entrada y capa de salida.

Luego, para el peso [math] j [/ math] en el nodo [math] i [/ math] necesitamos calcular:

[matemática] \ frac {\ parcial L} {\ parcial w_ {ij}} [/ matemática]

Usando la regla de la cadena tenemos

[matemáticas] \ frac {\ partial L} {\ partial w_ {ij}} = \ frac {\ partial L} {\ partial y_ {i}} \ frac {\ partial y_ {i}} {\ partial w_ {ij }}[/matemáticas]

[matemáticas] \ frac {\ partial L} {\ partial w_ {ij}} = \ frac {\ partial L} {\ partial y_ {i}} \ frac {\ partial y_ {i}} {\ partial a_ {i }} \ frac {\ partial a_ {i}} {\ partial w_ {ij}} [/ math]

Entonces podemos evaluar

[matemática] \ frac {\ parcial a_ {i}} {\ parcial w_ {ij}} = x_ {j} [/ matemática]

Entonces

[matemáticas] \ frac {\ partial L} {\ partial w_ {ij}} = \ frac {\ partial L} {\ partial y_ {i}} \ frac {\ partial y_ {i}} {\ partial a_ {i }} x_ {j} [/ matemáticas]

El termino

[matemáticas] \ frac {\ parcial y_ {i}} {\ parcial a_ {i}} [/ matemática]

Representa la derivada de la función de activación. Ahí lo tiene, la función de paso lateral no es diferenciable, por lo que no se puede utilizar el enfoque de descenso de gradiente común para la optimización de las redes perceptrónicas. Es por eso que encuentra variantes diferenciables de funciones de activación.

Una función de activación también evita que las redes de varias capas colapsen en una red equivalente de una sola capa. Eso puede suceder si las funciones de activación son lineales, la función de activación lineal significa que no hay ninguna función de activación. Por lo tanto, para aprovechar el poder de las arquitecturas de varias capas que deberían ser entrenables, se necesitan funciones de activación diferenciables no lineales.

Algunas funciones de activación como las funciones sigmoide o tanh también aplastan los valores de respuesta grandes, esto es importante para la robustez de los valores atípicos y el ruido en los datos de entrenamiento.

Espero que esto ayude.

More Interesting

¿Cuáles son los documentos que debería leer sobre los sistemas de recomendación basados ​​en el aprendizaje profundo?

¿Cuál es una buena definición de big data?

¿Cuáles son algunos excelentes boletines semanales de Data Science?

¿Existe alguna comparación entre las técnicas SLAM monoculares recientes, especialmente aquellas basadas en un aprendizaje profundo?

¿Es posible que, en el futuro, los países sean manejados por una súper computadora que calcule el mejor resultado de una decisión política?

¿Por qué los modelos de aprendizaje automático no funcionan bien cuando se usan en la predicción del mercado de valores en vivo, pero, por otro lado, funcionan muy bien sin conexión?

¿Qué es una explicación intuitiva de lo que significa que un espacio de hipótesis rompa un conjunto de puntos?

¿Es posible aplicar las técnicas de N-gram para el análisis de sentimientos?

¿Me puede recomendar algunos buenos libros, blogs, artículos y documentos dedicados a conjuntos de modelos y especialmente apilamiento de modelos, también conocidos como conjuntos de modelos híbridos?

Cómo usar la red neuronal de retardo de tiempo para la clasificación del conjunto de datos MNIST

¿Qué es la regresión logística?

¿Son los modelos de aprendizaje profundo / redes neuronales siempre superiores en las tareas de PNL?

¿Cómo puedo sobresalir en el aprendizaje automático con antecedentes estadísticos?

¿Pueden los algoritmos de aprendizaje automático realmente ayudar en el comercio?

¿Es posible comenzar a aprender y trabajar en el aprendizaje por refuerzo y el aprendizaje profundo sin un conocimiento previo sólido de otras clases de ML?