¿Algún investigador utiliza ReLU en un modelo de aprendizaje no profundo? ¿ReLU es solo para aprendizaje profundo?

Sí, de hecho, estoy usando ReLU en una red neuronal de 2 capas para mi investigación en este momento.

La utilidad de ReLU es que evita que los gradientes se saturen. Al comparar los gráficos de ReLU frente a tanh o sigmoide, puede ver que los dos últimos se “aplanan” lejos de cero.

¿Qué son los modelos mixtos en términos simples?
¿Qué papel juegan las redes neuronales y el aprendizaje automático en la atención médica?
¿Qué es una explicación intuitiva de lo que significa que un espacio de hipótesis rompa un conjunto de puntos?
¿Cuáles son las principales conferencias sobre inteligencia artificial, procesamiento del lenguaje natural y aprendizaje automático?
En PNL, ¿cómo se crean los corpus anotados?

Lo que esto significa es que durante la propagación hacia atrás, cuando pasa un gradiente a través de estas funciones, las funciones tanh y sigmoideas pondrán a cero el gradiente si la activación es alta. Digamos que la salida de una capa es 5: si le aplica la función tanh, la derivada de tanh en x = 5 es plana, lo que puede ver mirando el gráfico. Esto es lo que se entiende por saturación de gradientes: las salidas de las capas en el paso directo son demasiado altas para que este tipo de activaciones respalden un gradiente significativo y, por lo tanto, la red no puede aprender.

Observe que todo esto tuvo lugar dentro de una activación de capa única. Eso significa que puede suceder tanto para una red profunda como para una red neuronal de una capa. ReLU evita que este problema ocurra al proporcionar una función no lineal que no se satura (la derivada siempre es solo 1 para x> 0, lo que significa que actúa como una función de identidad en backprop)

ReLU por la victoria!