Hay dos beneficios principales:
- Las ReLU son mucho más simples computacionalmente. Los pasos hacia adelante y hacia atrás a través de una ReLU son solo una simple declaración if. Compare esto con la activación sigmoidea, que requiere calcular un exponente. Esta ventaja es enorme cuando se trata de grandes redes con muchas neuronas, y puede reducir significativamente los tiempos de entrenamiento y evaluación.
- Las activaciones sigmoideas son más fáciles de saturar. Hay un intervalo de entradas comparativamente estrecho para el cual la derivada del sigmoide es suficientemente distinta de cero . En otras palabras, una vez que un sigmoide alcanza la meseta izquierda o derecha, casi no tiene sentido hacer un paso hacia atrás, ya que la derivada está muy cerca de 0. Por otro lado, las ReLU solo se saturan cuando la entrada es menor que 0. E incluso esta saturación se puede eliminar mediante el uso de ReLU con fugas. Para redes muy profundas, la saturación dificulta el aprendizaje, por lo que las ReLU proporcionan una buena solución.