¿Qué son las unidades recurrentes cerradas y cómo se pueden implementar con TensorFlow?

Las Unidades Recurrentes Cerradas (GRU), desarrolladas en 2014 por Yoshua Bengio https://arxiv.org/pdf/1406.1078v…, son una variación de las células RNN que son más fáciles de entrenar y evitan el problema de los gradientes que desaparecen. El problema del gradiente de desaparición surge si al entrenar RNN con datos de series de tiempo largas y secuenciales, el gradiente de error con respecto a los parámetros del modelo en los primeros pasos de tiempo pasa a cero (como resultado de multiplicar demasiados números que son <1). Esto significa que se hace más difícil para el modelo aprender dependencias a largo plazo en la serie temporal de entrada.

Este problema se puede resolver mediante el uso de LSTM (memoria de corto plazo) o unidades recurrentes activadas (GRU) en lugar de la celda RNN básica.

En comparación con los LSTM, los GRU son menos costosos desde el punto de vista informático debido a que tienen menos puertas internas.

Aquí hay una figura, del artículo del blog de Colahs, Understanding LSTM Networks, que muestra cómo funciona GRU.

Las unidades recurrentes cerradas (GRU) ya están implementadas en TensorFlow. Puede crear una instancia usando

cell = tf.nn.rnn_cell.GRUCell (state_size)

Lea los documentos: Celdas RNN para usar con los métodos RNN principales de TensorFlow | TensorFlow

Y la implementación de la fuente: tensorflow / tensorflow

Aprendizaje automáticoAprendizaje profundoRedes neuronales artificialesTensorFlow

Related Content

¿Crees que Robot puede realizar todas las tareas humanas con Deep Learning?

¿Qué tan buena es la Universidad de Edimburgo, en comparación con la CMU para estudios de posgrado e investigación en aprendizaje automático y neurociencia computacional?

Cómo crear la línea de regresión de mínimos cuadrados (error cuadrático medio mínimo) en R

¿Qué cursos de estadística de Harvard debería tomar si quiero aprender aprendizaje estadístico / aprendizaje automático?

¿Son las computadoras mejores pensadores visuales?

¿Se pueden identificar las características que resultan del proceso de aprendizaje de CNN, o se puede diseñar e incrustar una cantidad de características bien definidas en una CNN?

¿Está bien usar software como scikit learn, tensorflow, keras y desarrollar aplicaciones sin profundizar en los conceptos matemáticos?

More Interesting

¿El evento IBM Watson vs. Jeopardy perjudicó los campos de aprendizaje automático e inteligencia humana?

¿De qué manera la Academia se está quedando atrás en la capacitación de Data Science?

Cómo comenzar con el aprendizaje de múltiples núcleos

¿Qué algoritmos de aprendizaje automático para la clasificación admiten el aprendizaje en línea?

¿Cuál es más adecuado para un aprendizaje automático de codificador o desarrollo web?

¿En qué orden debo aprender redes neuronales, aprendizaje automático, IA y NPL?

¿Por qué el aprendizaje del 'lenguaje ensamblador y máquina' se enfatiza menos en las universidades en comparación con el aprendizaje de lenguajes de programación generales?

¿Cuál es la función de zeropad en CNN?

Composición musical algorítmica: idea para una investigación

¿Qué datos puedo recopilar y hacer un procesamiento de Big Data para diagnosticar en mis sistemas?

¿Cuáles son algunas aplicaciones destacadas de los métodos de máxima verosimilitud?

¿Cuál es / son los métodos para iniciar / elegir filtros en redes neuronales convolucionales?

¿Cuáles son algunos casos de uso para el anonimato de datos?

¿Cuál es la diferencia entre la estimación de máxima verosimilitud (ML) y máxima a Posteri (MAP)?

¿Cuáles son algunos marcos de aprendizaje profundo con solo CPU?

Web Analytics