En el caso de la atención suave, los pesos en cada ubicación generalmente están dados por un softmax, y la salida del módulo de atención es una suma ponderada de representaciones en cada ubicación. Todo este proceso puede describirse mediante una función diferenciable, de modo que la capacitación se puede realizar conjuntamente con el resto de la red utilizando la propagación inversa. Toda la red aún optimiza la función de costo final para la tarea dada, y el módulo de atención se entrena conjuntamente para ayudar a reducir ese costo (ver, por ejemplo, [1] para un ejemplo de traducción automática).
En el caso de atención intensa, se realiza una elección discreta sobre las diferentes ubicaciones, generalmente en función de alguna distribución de probabilidad (por ejemplo, multinomial dada por un softmax), y la salida será una representación de la única ubicación elegida. Esta elección discreta no puede ser modelada por una función diferenciable, por lo tanto, no se puede utilizar la propagación hacia atrás, y se necesitan técnicas de entrenamiento más complejas, por ejemplo, basadas en variantes de la regla de refuerzo y métodos de gradiente de política del aprendizaje de refuerzo (ver, por ejemplo, [2 ]).
[1] [1409.0473] Traducción automática neuronal aprendiendo conjuntamente a alinear y traducir
- ¿Cuál es la contribución de Infosys Limited en OpenAI (empresa)?
- ¿Qué piensas sobre la creación de máquinas superinteligentes (IA)? Por favor lea los detalles antes de responder.
- ¿Cuál es el estado del arte en la similitud de imagen con el aprendizaje profundo?
- ¿Quién está más cerca de desarrollar una verdadera IA?
- ¿Cuáles son algunas definiciones breves y funcionales del concepto de "concepto" en varios campos?
[2] [1406.6247] Modelos recurrentes de atención visual