¿Cuáles son los beneficios de usar ReLU sobre softplus como funciones de activación?

ReLU se define como [math] f (x) = max (0, x). [/ Math] El softplus es su sustituto diferencial y se define como [math] f (x) = ln (1 + e ^ x) [ /matemáticas].

Tanto el ReLU como el Softplus son en gran medida similares, excepto cerca de 0, donde el softplus es atractivo y suave y diferenciable. Es mucho más fácil y eficiente calcular ReLU y su derivada que para la función softplus que tiene log (.) Y exp (.) En su formulación. Curiosamente, la derivada de la función softplus es la función logística: [math] f ‘(x) = \ frac {1} {1 + e ^ {- x}} [/ math].

En el aprendizaje profundo, calcular la función de activación y su derivada es tan frecuente como la suma y la resta en aritmética. Al cambiar a ReLU, los pases hacia adelante y hacia atrás son mucho más rápidos al tiempo que conservan la naturaleza no lineal de la función de activación requerida para que las redes neuronales profundas sean útiles.