¿Por qué diverge un LSTM con activaciones ReLU?

Diría que tiene sentido que al usar una unidad rectificadora lineal (RELU) dentro de la celda de memoria a corto plazo (LSTM), su modelo divergiría. Si observamos la variante más común del conjunto de ecuaciones LSTM (es decir, aquellas con conexiones de mirilla) que se muestra a continuación [1], puede ver por qué una función de activación que no se satura (como la RELU) colocada en cualquiera de las posibles funciones de activación que se muestran a continuación realmente no sería una buena idea:

Deconstruyamos el modelo. Por lo tanto, los sigmoides / enlaces logísticos (es decir, las “sigmas”) son necesarios ya que sirven como “puertas” y, por lo tanto, deben estar delimitados en el intervalo [0,1]. Ahora, para las funciones de activación g (.) Y h (.), Observe lo que estamos haciendo con sus salidas → estamos calculando un producto hadamard con su salida y la salida de otra cosa (en diferentes ecuaciones). La salida de la puerta de entrada se multiplica por elementos con c ^ \ tilde (en el paso t) y la salida de la puerta de olvido se multiplica por elementos con la salida de contexto / celda anterior (del último paso de tiempo). La puerta de salida (o) también se multiplica por elementos por la salida de celda actual (c ^ t) ejecutada a través de la función h (.). Cuando tiene productos hadamard, las activaciones pueden explotar rápidamente (si configuramos g (.) O h (.) Como RELU) si utiliza funciones de activación que no están limitadas (o “squash”) como RELU (ya que no tiene límites en su parte positiva).

Además, aunque complejo (y, por lo tanto, más lento desde el punto de vista computacional), el LSTM se diseñó con un esquema de activación en mente para abordar mejor el problema de los gradientes que desaparecen. El RELU no es necesario (como en las arquitecturas de avance, o en algunos modelos RNN más simples) en este caso, que es lo bueno del LSTM, y muy probablemente por qué se usa casi al por mayor en la mayoría de las aplicaciones =] De esta manera, las personas enfóquese menos en retocar los detalles arquitectónicos y enfóquese más en el problema de optimización, los datos y la tarea objetivo.

[1] diagrama de LSTM con ecuaciones de mirilla prestadas de redes neuronales recurrentes, RNN, LSTM, memoria a largo plazo, redes neuronales, aprendizaje automático, PNL

Aprendizaje automáticoAprendizaje profundoMemoria a largo plazoRedes neuronales artificiales