¿Cuáles son las nuevas modificaciones en las redes neuronales recurrentes cuando se considera el aprendizaje profundo?

Ha habido varios desde 2014. En mi humilde opinión, después de la existencia de la traducción automática neuronal, se ha dedicado mucho esfuerzo al diseño de mejores redes recurrentes, que incluyen, entre otros, los siguientes:

  • El resurgimiento de la memoria a corto plazo (LSTM)
  • Variaciones de LSTM como GRU. El principio de tener un carrusel lineal conecta de alguna manera los modelos recurrentes con los de visión artificial, como ResNet
  • Modelo de secuencia a secuencia (seq2seq). Dado que es fácil y natural lanzar cualquier cosa como una situación seq2seq, la gente ha estado haciendo eso. Se crearon documentos con nombres divertidos como “Show and Tell”, “Listen and Spell”, etc.
  • Mecanismo de atención y otros modelos de memoria auxiliar (red de memoria, máquina neural de Turing, red de memoria dinámica, etc.). Estos ayudan a los RNN a mejorar en problemas que requieren modelar secuencias más largas. Con él surgieron nombres en papel más divertidos como “Mostrar, asistir y contar”, “Escuchar, asistir y deletrear”
  • En curso: tiempo de cálculo adaptativo
  • En curso: formación de RNN con aprendizaje de refuerzo, por ejemplo. “Capacitación a nivel de secuencia: […]” (ICLR 2016)

More Interesting

¿Cómo funciona la función "Tiempos populares" de Google Maps?

¿Cómo puedo usar una red neuronal de convolución (para reconocimiento facial) después del entrenamiento? Quiero darle una cara como entrada y ver la salida predicha.

¿Qué debo hacer para poder contribuir al campo de la visión por computadora y trabajar en Google en el futuro?

¿Cuáles son algunos campos en los que las redes neuronales artificiales aún no se han utilizado?

¿Cuáles son algunos buenos documentos sobre la extracción de sinónimos de los registros de consultas?

¿Cuáles son las mejores técnicas para crear vectores de oraciones para el procesamiento del lenguaje natural?

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

¿Podría el aprendizaje profundo vencer a los métodos tradicionales en 3D Vision?

¿Cuáles son las diferencias entre un científico de aprendizaje automático y un científico de datos?

¿Qué es el algoritmo de descenso de gradiente?

Como cuerpo técnico, ¿cómo se concilia el hecho de estar basado en datos, abrazar la diversidad de la fuerza laboral y contratar a los mejores?

¿Qué es la regresión de cresta?

¿Qué podríamos hacer con Asimo si la computadora dentro estuviera con el poder de la caja de aprendizaje profundo Nvidia DGX-1?

En Python, ¿cómo puedo probar y asegurarme de que mi modelo predice datos correctamente? (principiante preguntando)

¿Cómo utiliza Quora el aprendizaje automático en 2015?