¿Algún investigador utiliza ReLU en un modelo de aprendizaje no profundo? ¿ReLU es solo para aprendizaje profundo?

Sí, de hecho, estoy usando ReLU en una red neuronal de 2 capas para mi investigación en este momento.

La utilidad de ReLU es que evita que los gradientes se saturen. Al comparar los gráficos de ReLU frente a tanh o sigmoide, puede ver que los dos últimos se “aplanan” lejos de cero.

Lo que esto significa es que durante la propagación hacia atrás, cuando pasa un gradiente a través de estas funciones, las funciones tanh y sigmoideas pondrán a cero el gradiente si la activación es alta. Digamos que la salida de una capa es 5: si le aplica la función tanh, la derivada de tanh en x = 5 es plana, lo que puede ver mirando el gráfico. Esto es lo que se entiende por saturación de gradientes: las salidas de las capas en el paso directo son demasiado altas para que este tipo de activaciones respalden un gradiente significativo y, por lo tanto, la red no puede aprender.

Observe que todo esto tuvo lugar dentro de una activación de capa única. Eso significa que puede suceder tanto para una red profunda como para una red neuronal de una capa. ReLU evita que este problema ocurra al proporcionar una función no lineal que no se satura (la derivada siempre es solo 1 para x> 0, lo que significa que actúa como una función de identidad en backprop)

ReLU por la victoria!

Está bien usar ReLU para modelos poco profundos también. Es solo que otras activaciones no funcionan bien con modelos profundos, por lo que ReLU se usa para aquellos casi exclusivamente, pero para modelos poco profundos tiene más opciones.