¿Cómo funciona el mecanismo de atención de múltiples cabezas en el aprendizaje profundo?

Suponga que tiene un vector de dimensión [matemática] 512 [/ matemática] (por ejemplo, salida de capa oculta). Lo que hace el mecanismo de atención [matemática] 4 [/ matemática] es dividir el vector en trozos [matemáticos] 4 [/ matemáticos], cada uno de dimensión [matemática] 512/4 = [/ matemática] [matemática] 128 [/ matemática], y aplica uno de los mecanismos de atención habituales a cada fragmento en paralelo, y concatena los resultados.

Se encuentra empíricamente que la atención de múltiples cabezas funciona mejor que la “cabeza simple” habitual en el contexto de la traducción automática. Y la intuición detrás de tal mejora es que “la atención de múltiples cabezas permite que el modelo atienda conjuntamente información de diferentes subespacios de representación en diferentes posiciones” [1].

Notas al pie

[1] [1706.03762] La atención es todo lo que necesitas

Varias capas simples de atención suave se ejecutan en paralelo y luego sus salidas se concatenan. Si además reduce sus dimensiones como en este trabajo ([1706.03762] La atención es todo lo que necesita) obtendrá los beneficios de la atención de múltiples cabezas con poca o ninguna sobrecarga computacional.

More Interesting

¿Cómo se pueden utilizar los autoencoders apilados para preentrenar una red neuronal que tiene más neuronas en las capas ocultas que entradas? es posible?

¿Por qué usar Kohonen SOMs sobre K-means, o viceversa?

¿Cuál es un ejemplo ilustrativo donde LDA y SVM dan límites de decisión diferentes?

¿Hay algún programa en desarrollo que pueda escuchar un idioma y comenzar a aprenderlo, como en Star Trek?

¿Cómo obtienen las empresas datos de capacitación para implementar el aprendizaje para clasificar algoritmos, especialmente en el contexto de búsqueda?

Conjuntos de datos: ¿Cuáles son los principales corpus de texto utilizados por los lingüistas computacionales y los investigadores del procesamiento del lenguaje natural, y cuáles son las características / sesgos de cada corpus?

¿Qué libro de los dos es más completo para PNL: el de Jurafsky o el de Manning?

¿Keras admitirá PyTorch como backend en el futuro?

¿Cuál es la diferencia entre el control óptimo adaptativo y el aprendizaje por refuerzo?

¿Cuál es un buen consejo para una implementación eficiente de un algoritmo de aprendizaje automático en C / C ++?

¿Son los sistemas de recomendación actuales lo mejor que podemos hacer?

¿El aprendizaje automático o los algoritmos de aprendizaje se pueden aplicar a problemas de optimización?

¿Cuáles son las máquinas CNC más vendidas en todo el mundo?

¿Cuántas imágenes necesito para entrenar una red neuronal convolucional?

¿Cuál es la diferencia entre regresión, clasificación y agrupamiento en el aprendizaje automático?