A un alto nivel, un mecanismo de atención permite que su red neuronal se centre en partes relevantes de su entrada más que en las partes irrelevantes cuando realiza una tarea de predicción.
La atención apunta a capturar algo que hacemos como humanos. Por ejemplo, si está traduciendo manualmente una oración larga de un idioma a otro, en cualquier momento se centrará más en la palabra o frase específica que está traduciendo, sin importar dónde se encuentre en la oración de entrada. La atención recrea este mecanismo para las redes neuronales.
El mecanismo de atención se usa con mayor frecuencia en los modelos de secuencia a secuencia. Sin un mecanismo de atención, su modelo tiene que capturar la esencia de toda la secuencia de entrada en un solo estado oculto (representado por S en el diagrama a continuación). Esto es muy difícil de hacer en la práctica, y este problema empeora cuanto más larga sea su secuencia de entrada.
- ¿Cuáles son algunas aplicaciones del aprendizaje automático para la ciencia ambiental y la ingeniería ambiental?
- ¿Cuál es la forma completa de AUC en el estado de AUC de los resultados del examen AKTU?
- ¿La red neuronal profunda es realmente un aprendizaje profundo?
- ¿Qué es la optimización submodular?
- ¿Cuál es la maldición de la dimensionalidad?
El mecanismo de atención mejora este modelo al permitirle “mirar hacia atrás” en la oración de entrada en cada paso de la etapa de decodificador. Cada salida del decodificador ahora depende no solo del último estado del decodificador, sino también de una combinación ponderada de todos los estados de entrada.
Dado que todo lo que agrega el mecanismo de atención es una estructura adicional a su red, se aprende como parte del entrenamiento estándar del modelo a través de la propagación hacia atrás. No necesita hacer nada especial para ello.
Como ejemplo ilustrativo, considere esta tarea de traducción del inglés al francés. Puede ver la red “atendiendo” a diferentes partes de la oración de entrada al proponer la traducción final.
Dado que el inglés y el francés son idiomas bastante bien alineados, puede ver que el decodificador elige atender las cosas en su mayoría de forma secuencial para la frase “Zona Económica Europea” que se traduce a “zone économique européenne”.
Puede encontrar más detalles sobre la atención en estos enlaces:
- Atención y redes neuronales recurrentes aumentadas
- Atención y memoria en aprendizaje profundo y PNL
- Echar un vistazo a la arquitectura de red neuronal utilizada para la traducción automática neuronal de Google
Gracias Stephen Merity y Distill por los diagramas anteriores.