¿Cómo se forma el componente de atención de las redes neuronales atencionales?

En el caso de la atención suave, los pesos en cada ubicación generalmente están dados por un softmax, y la salida del módulo de atención es una suma ponderada de representaciones en cada ubicación. Todo este proceso puede describirse mediante una función diferenciable, de modo que la capacitación se puede realizar conjuntamente con el resto de la red utilizando la propagación inversa. Toda la red aún optimiza la función de costo final para la tarea dada, y el módulo de atención se entrena conjuntamente para ayudar a reducir ese costo (ver, por ejemplo, [1] para un ejemplo de traducción automática).

En el caso de atención intensa, se realiza una elección discreta sobre las diferentes ubicaciones, generalmente en función de alguna distribución de probabilidad (por ejemplo, multinomial dada por un softmax), y la salida será una representación de la única ubicación elegida. Esta elección discreta no puede ser modelada por una función diferenciable, por lo tanto, no se puede utilizar la propagación hacia atrás, y se necesitan técnicas de entrenamiento más complejas, por ejemplo, basadas en variantes de la regla de refuerzo y métodos de gradiente de política del aprendizaje de refuerzo (ver, por ejemplo, [2 ]).

[1] [1409.0473] Traducción automática neuronal aprendiendo conjuntamente a alinear y traducir

[2] [1406.6247] Modelos recurrentes de atención visual