Lo primero es lo primero, la inicialización es clave para reducir el gradiente de fuga / explosión: los gradientes de fuga / explosión provienen de un comportamiento contractivo / caótico de su red, es decir, en cada paso del tiempo, la distribución de actividades de cada capa se reduce o se expande relativamente a La capa anterior. Si esta contracción / expansión se acumula varias veces, la información sobre la distribución inicial y, por lo tanto, sobre las entradas se pierde rápidamente. Asegurarse de que su distribución inicial de peso conserva la escala de su distribución en cada capa al menos atenuará el gradiente de fuga / explosión.
Otras soluciones dependen de la arquitectura:
- Para RNN, la arquitectura LSTM o GRU está diseñada para evitar el gradiente de fuga.
- Para las redes de avance, la normalización por lotes asegurará con precisión que la distribución no sea muy diferente de una capa a otra. Esto reduce en gran medida los gradientes de fuga / explosión. Las conexiones omitidas y ResNets ofrecen el mismo tipo de soluciones que los LSTM y GRU al proporcionar conexiones que omiten las funciones de activación y los pesos y, por lo tanto, son independientes de los efectos de desaparición / explosión.
- ¿Cuántos datos son suficientes para entrenar un modelo NN profundo?
- ¿Cómo puede ANN manejar datos de entrada no numéricos?
- ¿Cuál es la intuición detrás de llamar variables ortogonales como independientes? Proporcione una respuesta en el contexto del aprendizaje automático.
- ¿Mi reproductor de caja de ritmo aprendió qué canción tocar a continuación?
- Cómo discriminar una señal del ruido en la última investigación y desarrollo de AI / ML