¿Cómo se forma el componente de atención de las redes neuronales atencionales?

En el caso de la atención suave, los pesos en cada ubicación generalmente están dados por un softmax, y la salida del módulo de atención es una suma ponderada de representaciones en cada ubicación. Todo este proceso puede describirse mediante una función diferenciable, de modo que la capacitación se puede realizar conjuntamente con el resto de la red utilizando la propagación inversa. Toda la red aún optimiza la función de costo final para la tarea dada, y el módulo de atención se entrena conjuntamente para ayudar a reducir ese costo (ver, por ejemplo, [1] para un ejemplo de traducción automática).

En el caso de atención intensa, se realiza una elección discreta sobre las diferentes ubicaciones, generalmente en función de alguna distribución de probabilidad (por ejemplo, multinomial dada por un softmax), y la salida será una representación de la única ubicación elegida. Esta elección discreta no puede ser modelada por una función diferenciable, por lo tanto, no se puede utilizar la propagación hacia atrás, y se necesitan técnicas de entrenamiento más complejas, por ejemplo, basadas en variantes de la regla de refuerzo y métodos de gradiente de política del aprendizaje de refuerzo (ver, por ejemplo, [2 ]).

[1] [1409.0473] Traducción automática neuronal aprendiendo conjuntamente a alinear y traducir

[2] [1406.6247] Modelos recurrentes de atención visual

Related Content

¿Cómo y dónde publico un trabajo de investigación sobre inteligencia artificial?

¿Por qué quieres iniciar una empresa relacionada con la IA?

¿Cómo calculo un "Probabilidad de pertenecer al género XYZ" -Score para pistas de música usando WEKA?

¿Cómo se calcula el refuerzo?

Si creamos un robot que solo puede ver átomos individuales, ¿qué vería un robot así si mirara a una habitación llena de gente?

Cómo comenzar a hacer una aplicación que diga lo hermosa que eres, usando el aprendizaje automático

Cómo usar OpenCV en combinación con Scikit-learn

More Interesting

Cómo obtener datos para mi chatbot

¿Debería evaluarse un modelo de red neuronal en función del porcentaje de pronósticos que hacen una predicción correcta, en lugar de medidas basadas en términos de error?

Si ya tenemos algoritmos más inteligentes que las bacterias, ¿por qué no podemos simplemente hacer un gran proyecto web y dejar que se ejecute a toda velocidad para evolucionar hacia Singularity?

¿Cuál sería el papel de la IA en la industria minorista en el futuro cercano?

¿Quién tiene más inteligencia artificial sobre los humanos: Facebook o Google? ... ¿Y en el futuro?

¿Qué es lo que más te emociona de la inteligencia artificial?

¿Construir robots humanoides es una buena idea para el futuro de nuestra sociedad? ¿Deberíamos fabricar solo robots no humanoides con fines éticos y de paz?

Para un principiante en Python, ¿se requiere desarrollo web para ingresar al aprendizaje automático / IA?

¿Es un gran problema que AI haya escrito un guión de película?

¿Qué debería aprender a continuación si me gustan las estructuras de datos y los algoritmos?

¿Cuál es el problema que nos traerá la IA?

¿Los robots y la IA respetarán la confidencialidad?

Me gustaría comenzar un proyecto de IA para un proyecto médico que ayude a hacer un diagnóstico. ¿Dónde empiezo?

¿Cuál de estos cambiará nuestras vidas para siempre? Blockchain, AI, IOT o VR?

¿Cómo puede ser tan inteligente la superinteligencia artificial?

Web Analytics