¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

El problema de gradiente de fuga no ocurre debido a una función de pérdida particular. Ocurre debido a funciones de activación cuyos valores diferenciales son inferiores a 1 (sigmoide y tanh).

Si analiza el gradiente propagado hacia atrás a las capas más a la izquierda de una red neuronal profunda, verá que este término de función diferencial de activación se multiplica una y otra vez y reduce el gradiente total recibido en estas capas, lo que dificulta el aprendizaje de los pesos. Por lo tanto, la elección de una función de activación es importante en arquitecturas que no pueden manejar problemas de gradiente de desaparición inherentemente (CNN, RNN). El diferencial de una activación RELU es siempre 1 para todas las entradas positivas y, por lo tanto, puede evitar que el problema de gradiente desaparezca en tales redes hasta cierto punto. Esta es la razón por la cual las RELU son las funciones de activación elegidas para CNN y RNN. Los LSTM, por otro lado, manejan explícitamente este problema a través de lo que se conoce como un “carrusel de error constante”, lo que hace que la elección de una función de activación no sea tan importante.

Las redes neuronales y el aprendizaje profundo son una buena lectura complementaria para este tema.

Related Content

Como principiante, ¿cómo debo estudiar el aprendizaje profundo?

¿Cuál es la diferencia al aplicar el aprendizaje profundo en el reconocimiento de voz automático usando kaldi y usando la antorcha?

¿En qué año la publicidad de AI / Machine Learning se pondrá al día con la realidad?

¿Alguien consiguió un trabajo en Machine Learning después de completar un Nanodegree de Machine Learning?

¿Qué conceptos debería practicar en la programación antes de ir a Machine Learning?

¿Qué tecnologías que no son de IBM se están utilizando para mejorar el ecosistema de IBM Watson?

¿Cuáles son las características importantes para el análisis de sentimientos basado en aspectos en el enfoque de aprendizaje automático? ¿Qué algoritmos se pueden usar para extraer estas características?

Secundo lo que dijo Sean Campbell. Se ha trabajado mucho para combatir los gradientes que desaparecen, que son un problema para todas las redes muy profundas. Debe buscar en LSTM y redes ResNet / Highway.

Ram Manohar Oruganti

More Interesting

¿Cuáles son algunos de los análisis predictivos inteligentes y el aprendizaje automático que uno puede hacer con los datos de flujo de clics?

¿Cómo difiere la clasificación de la clasificación? ¿Cómo son similares?

¿Qué es una explicación intuitiva de la convolución 1 × 1 en ConvNets?

Cómo configurar una instancia de AWS GPU para aprender el aprendizaje automático

¿Vale la pena obtener un doctorado en aprendizaje automático y procesamiento del lenguaje natural?

¿Cuál es el mejor marco de aprendizaje profundo para Apache Spark?

¿Cómo es tomar CS 228: modelo gráfico probabilístico en Stanford?

¿Qué tan importante es Octave como primer paso en Machine Learning? ¿Se utiliza en la industria?

¿Por qué usamos convolución en redes neuronales?

¿Cómo puede un joven de 16 años comenzar a aprender sobre el aprendizaje automático?

¿Existe algún audiolibro 'técnico' realmente bueno para la investigación de operaciones o el aprendizaje automático, aparte del algoritmo maestro?

¿Se reemplazará la programación de la computadora por aprendizaje automático?

Cómo hacer clustering de tipos de datos mixtos en Python

Como principiante en el procesamiento del lenguaje natural, ¿desde dónde debo comenzar?

¿Vale la pena probar PCA en sus datos antes de alimentar a SVM?

Web Analytics