Los perceptrones con funciones escalonadas laterales proporcionan un ejemplo intuitivo de funciones de activación, dada una neurona:
[matemáticas] y = \ varphi (w ^ {T} x + b) [/ matemáticas]
[matemáticas] y = \ varphi (a) [/ matemáticas]
- ¿Cuándo se deben usar modelos generativos y no modelos discriminativos?
- ¿Es el modelo de análisis factorial una versión multivariada del modelo de mezcla gaussiana?
- ¿Cuál es la diferencia entre estadística y aprendizaje automático?
- Aprendizaje automático: al construir un modelo de regresión lineal, ¿cómo decido entre variar el grado del polinomio y variar el parámetro de regularización?
- ¿SVM siempre supera a J48? Tengo un caso de uso donde J48 funciona mejor. ¿Significa que algo está mal con mi enfoque / implementación?
Donde [math] \ varphi [/ math] = función de activación y [math] a = w ^ {T} x + b [/ math]
Durante el tiempo de los perceptrones multicapa (MLP), la función de paso lateral estaba siendo utilizada como la función de activación, pero ¿para qué?
Para la toma de decisiones, sabemos que las decisiones son discretas, ¿verdad? Podemos decidir ir a la iglesia o no, podemos decidir ver una película o no. Entonces, la tarea de un nodo de procesamiento simple es simplemente decidir si una característica particular está presente o no. La función de paso lateral es una función de decisión binaria natural.
Pero, ¿cómo se entrena una red neuronal (NN) llena de tales perceptrones? El enfoque más intuitivo sería hacer pequeñas perturbaciones en los parámetros de peso y ver cómo se comporta la red. Pero hay un problema con la función de paso lateral. ¿Puedes resolverlo? Tómese su tiempo y piense en ello antes de continuar leyendo.
Bien, ¿has resuelto el problema con la función de paso lateral? Si no, no te preocupes.
En el aprendizaje automático (ML), abordamos el aprendizaje como un problema de optimización definiendo una función objetivo / pérdida / costo diferenciable [matemática] L [/ matemática]. Por lo tanto, debemos descubrir cómo la variación de cada peso en cantidades muy pequeñas afectará la función de pérdida [matemáticas] L [/ matemáticas] que necesitamos para minimizar esta pérdida. Por lo tanto, podemos calcular un gradiente de la pérdida con respecto a cada peso para encontrar la dirección en la que ajustar los pesos en un enfoque de optimización (aprendizaje) basado en el descenso del gradiente.
Asumiendo una red de 2 capas, capa de entrada y capa de salida.
Luego, para el peso [math] j [/ math] en el nodo [math] i [/ math] necesitamos calcular:
[matemática] \ frac {\ parcial L} {\ parcial w_ {ij}} [/ matemática]
Usando la regla de la cadena tenemos
[matemáticas] \ frac {\ partial L} {\ partial w_ {ij}} = \ frac {\ partial L} {\ partial y_ {i}} \ frac {\ partial y_ {i}} {\ partial w_ {ij }}[/matemáticas]
[matemáticas] \ frac {\ partial L} {\ partial w_ {ij}} = \ frac {\ partial L} {\ partial y_ {i}} \ frac {\ partial y_ {i}} {\ partial a_ {i }} \ frac {\ partial a_ {i}} {\ partial w_ {ij}} [/ math]
Entonces podemos evaluar
[matemática] \ frac {\ parcial a_ {i}} {\ parcial w_ {ij}} = x_ {j} [/ matemática]
Entonces
[matemáticas] \ frac {\ partial L} {\ partial w_ {ij}} = \ frac {\ partial L} {\ partial y_ {i}} \ frac {\ partial y_ {i}} {\ partial a_ {i }} x_ {j} [/ matemáticas]
El termino
[matemáticas] \ frac {\ parcial y_ {i}} {\ parcial a_ {i}} [/ matemática]
Representa la derivada de la función de activación. Ahí lo tiene, la función de paso lateral no es diferenciable, por lo que no se puede utilizar el enfoque de descenso de gradiente común para la optimización de las redes perceptrónicas. Es por eso que encuentra variantes diferenciables de funciones de activación.
Una función de activación también evita que las redes de varias capas colapsen en una red equivalente de una sola capa. Eso puede suceder si las funciones de activación son lineales, la función de activación lineal significa que no hay ninguna función de activación. Por lo tanto, para aprovechar el poder de las arquitecturas de varias capas que deberían ser entrenables, se necesitan funciones de activación diferenciables no lineales.
Algunas funciones de activación como las funciones sigmoide o tanh también aplastan los valores de respuesta grandes, esto es importante para la robustez de los valores atípicos y el ruido en los datos de entrenamiento.
Espero que esto ayude.