¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

El problema de gradiente de fuga no ocurre debido a una función de pérdida particular. Ocurre debido a funciones de activación cuyos valores diferenciales son inferiores a 1 (sigmoide y tanh).

Si analiza el gradiente propagado hacia atrás a las capas más a la izquierda de una red neuronal profunda, verá que este término de función diferencial de activación se multiplica una y otra vez y reduce el gradiente total recibido en estas capas, lo que dificulta el aprendizaje de los pesos. Por lo tanto, la elección de una función de activación es importante en arquitecturas que no pueden manejar problemas de gradiente de desaparición inherentemente (CNN, RNN). El diferencial de una activación RELU es siempre 1 para todas las entradas positivas y, por lo tanto, puede evitar que el problema de gradiente desaparezca en tales redes hasta cierto punto. Esta es la razón por la cual las RELU son las funciones de activación elegidas para CNN y RNN. Los LSTM, por otro lado, manejan explícitamente este problema a través de lo que se conoce como un “carrusel de error constante”, lo que hace que la elección de una función de activación no sea tan importante.

Las redes neuronales y el aprendizaje profundo son una buena lectura complementaria para este tema.

Secundo lo que dijo Sean Campbell. Se ha trabajado mucho para combatir los gradientes que desaparecen, que son un problema para todas las redes muy profundas. Debe buscar en LSTM y redes ResNet / Highway.