Suponga que tiene un vector de dimensión [matemática] 512 [/ matemática] (por ejemplo, salida de capa oculta). Lo que hace el mecanismo de atención [matemática] 4 [/ matemática] es dividir el vector en trozos [matemáticos] 4 [/ matemáticos], cada uno de dimensión [matemática] 512/4 = [/ matemática] [matemática] 128 [/ matemática], y aplica uno de los mecanismos de atención habituales a cada fragmento en paralelo, y concatena los resultados.
Se encuentra empíricamente que la atención de múltiples cabezas funciona mejor que la “cabeza simple” habitual en el contexto de la traducción automática. Y la intuición detrás de tal mejora es que “la atención de múltiples cabezas permite que el modelo atienda conjuntamente información de diferentes subespacios de representación en diferentes posiciones” [1].
Notas al pie
- ¿Cómo funciona la red de propuestas regionales (RPN) en Faster R-CNN?
- ¿Cuál es la diferencia al aplicar el aprendizaje profundo en el reconocimiento de voz automático usando kaldi y usando la antorcha?
- ¿Podemos nombrar funciones de funciones en CRF como funciones de kernel como para SMV?
- Quiero comenzar en PNL. ¿Vale la pena?
- Comencé a aprender Machine Learning pero estoy luchando con conceptos matemáticos como la regresión lineal. ¿Cuál debería ser mi punto de partida en tal caso?
[1] [1706.03762] La atención es todo lo que necesitas