Desde el punto de vista simplificado, el Mecanismo de Atención se puede ver como un método para hacer que el RNN funcione mejor al permitir que la red sepa dónde mirar mientras realiza su tarea. Veamos esto con tres ejemplos:
Tarea 1 : traducir una oración del inglés al francés. Como se ve en el diagrama, los puntos blancos muestran dónde está “prestando atención” la red al intentar traducir cada palabra. Específicamente, cuando surgió la palabra francesa “européenne”, la red estaba mirando la palabra inglesa “europeo”
- ¿Existe algún proyecto de código abierto que implemente algoritmos de aprendizaje profundo que aproveche la enorme potencia informática paralela de la GPU?
- ¿Cuál es el mejor método para presentar la idea de una red neuronal de convolución a un profano?
- ¿Qué significa ser modelo pre-entrenado en CNN? ¿Ya están entrenados en esas clases particulares?
- ¿Hay algún kit de herramientas LSTM disponible en MATLAB?
- ¿Cuáles son las preguntas más importantes en el aprendizaje automático?
En un RNN estándar sin atención, la red haría una predicción meramente basada en las palabras anteriores “L ‘accord sur la zone économique” y la palabra actual “Area”. Pero no queremos la palabra “Área” ya que esa palabra ya ha sido traducida. Entonces, la atención dice que tenemos una mayor probabilidad de éxito si miramos a otra parte.
Tarea 2: escribir un título de una imagen. Esta vez, el mecanismo de atención le dice a la red aproximadamente a qué píxeles prestar atención al escribir el texto.
Tarea 3: La atención también se puede utilizar para atender las celdas de memoria, como las que se encuentran en las máquinas de Neural Turing, redes de memoria o redes de puntero. Esta vez, la atención le dice al controlador qué memoria podría ser más útil en ese momento para responder la consulta. Todos vuelven a la misma idea de decirle a la red dónde buscar para aumentar la probabilidad de encontrar la respuesta correcta.
En última instancia, el mecanismo de atención realiza un softmax en cada paso de tiempo del RNN, de modo que el RNN puede tomar la mejor decisión que necesita en ese momento. Si intentaba copiar un número de teléfono de un sitio web en su teléfono, podría prestar atención al código de área, luego a los siguientes tres números y finalmente a los últimos cuatro dígitos. ¡La atención en las redes neuronales funciona de una manera sorprendentemente similar!
Fuente útil: Atención y redes neuronales recurrentes aumentadas