¿La variable de tiempo muestra una conexión recurrente en RNN?

Centrarse en la palabra “recurrente” aclararía la comprensión mejor. “Recurrente” significa algo que ocurre a menudo o repetidamente . Entonces, lo que hace que los RNN sean “recurrentes” es esencialmente el hecho de que comparte los mismos pesos en varios pasos de tiempo.

Ahora, según su figura, puede ver que W , V y U son los mismos en todos los pasos de tiempo que denotan la naturaleza recurrente de la red. En otras palabras, esto significa que la red comparte repetidamente los mismos pesos en varios pasos de tiempo. Y, también puede notar que todas las otras cosas están cambiando: las entradas (x) , los estados ocultos y las salidas (o) ; Es por eso que tienen un subíndice asociado con ellos (t), la variable de tiempo, que está cambiando.

Espero que esto aclare tu comprensión! Si no, como siempre, le recomendaría la biblia del aprendizaje profundo, Capítulo 10: http://www.deeplearningbook.org/…. ¡Todo lo mejor!

Xt-1 representa el valor en el pasado, Xt representa la entrada actual y Xt + 1 muestra el futuro. Debe comprender el funcionamiento de RNN para comprender cómo ayuda a predecir los valores futuros. Por ejemplo, hay algunos procesos aleatorios cuyo valor actual puede depender de valores en el pasado cercano, puede ser Xt-1, Xt-2,. . Y así sucesivamente eso necesita ser analizado. Entonces, para predecir (calcular la función de regresión) el valor en el futuro cercano, necesitamos almacenar valores del pasado o del pasado cercano en la memoria de la red, eso es lo que RNN hace al desplegar estados.

La versión desplegada del RNN en el lado derecho del gráfico puede interpretarse como que tiene un eje de tiempo de puntería derecho.

s_t es la variable que se retroalimenta al RNN (el pequeño círculo). Formalmente, en el tiempo t,

s_t = g (Ws_ {t-1} + Ux_t)

More Interesting

¿Es posible detectar una estructura de acordes en una canción usando el aprendizaje profundo? Si es así, ¿cómo?

¿Cuál es una explicación intuitiva para el problema de optimización cuadrática?

¿Cuándo se deben usar modelos generativos y no modelos discriminativos?

¿Qué es más beneficioso para la comprensión general de la informática, el procesamiento del lenguaje natural o la teoría de la computación?

¿Es útil el modelo jerárquico bayesiano en la industria o las finanzas?

¿Cuáles son algunas aplicaciones de los modelos gráficos probabilísticos?

¿Cuál es la diferencia entre TensorFlow y Grep? ¿Cuál es el más adecuado para el aprendizaje automático? ¿Por qué o por qué no?

Cómo construir un horario usando un algoritmo genético

Cómo etiquetar los datos conversacionales para la capacitación en PNL

¿Por qué el aprendizaje profundo solo funciona bien en datos no estructurados?

¿Cuáles son los pros y los contras comparativos de usar Python, MATLAB / Octave y R para el análisis de datos y el aprendizaje automático?

¿Cómo se puede aplicar RL (método de gradiente de política) al problema de selección de subconjunto, donde cada prueba consiste en seleccionar un subconjunto de elementos de un conjunto más grande?

¿Alguien ha intentado combinar las redes neuronales con un aprendizaje profundo?

¿Qué 2 cursos entre estructuras de datos y algoritmos, diseño de software, introducción a IA, aprendizaje automático y sistemas operativos, debo elegir?

¿Debería Facebook usar el aprendizaje automático para identificar a los usuarios con potencial de convertirse en un asesino en masa?