¿Por qué utilizamos un RNN en lugar de una simple red neuronal?

De acuerdo … así que pensemos de una manera muy intuitiva. Estás tratando de aprender a escribir un alfabeto, por ejemplo, tomemos ‘A’. Ahora, imagínense que cuando se les enseñó a escribir ‘A’ por primera vez, tenían esta hoja de papel en la que se hicieron alfabetos punteados, algo así como:

Ahora, cuando comenzó a resolverlo, aprendió así:

Que estabas haciendo ? Comenzaste a escribir y luego te diste cuenta de “¡Oh! Mi bolígrafo se está moviendo fuera de la línea. Debo cambiar mi trazo; de lo contrario, estropearé toda la carta y luego me regañarán ”. Entonces, si es posible, la borraría o al menos cambiaría la dirección de su bolígrafo mientras escribe la carta. Aquí es donde dices que los RNN son útiles. esencialmente te están dando una retroalimentación mientras tu proceso continúa, no exactamente como un ANN normal de que completes el proceso y luego calcules el error 🙂

Para más detalles, consulte el http://www.deeplearningbook.org/… por Ian Goodfellow

fuente de la imagen: Hoja de trabajo de práctica de escritura de alfabeto de letras discontinuas ABC

RNN (red neuronal recurrente) se utiliza principalmente en PNL. Por ejemplo, una aplicación de RNN está en modelado de lenguaje o generación de texto. Este tipo de tareas exige que comprenda la semántica y la forma sintáctica de las oraciones. En otras palabras, la dependencia entre las palabras, digamos, qué palabra “Y” debe aparecer al siguiente de alguna palabra “X”, debe tenerse en cuenta.

Por lo tanto, RNN tiene esta capacidad (puede aprender la dependencia mediante BPTT, es decir, la propagación inversa a través del tiempo) de la que carece una red neuronal convencional. RNN parece funcionar mejor en esas tareas de PNL y es por eso que básicamente usa RNN.

En una nota al margen, RNN no es el goto NN en esas tareas de PNL, hay pocos RNN avanzados como LSTM (Memoria a corto plazo), GRU (Unidad recurrente cerrada) que tienden a superar a los RNN convencionales. Esto se debe a que los RNN no pueden ocuparse de la dependencia a largo plazo de una oración. Por ejemplo, si una oración tiene 100 palabras, RNN falla completamente en este caso, mientras que LSTM, GRU le dan más libertad para elegir y hacer que el modelo aprenda qué memorizar, qué dejar, qué agregar. Lea sobre ellos para saber en detalle.

En pocas palabras, los RNN tienen memoria mientras que las redes simples (como Perceptron) y no tan simples (como CNN) no.

En cualquier caso de una sola operación (como clasificar una sola imagen) la red de retroalimentación no tiene información sobre lo que hizo antes, siempre comienza desde cualquier estado en el que fue entrenada de antemano. Sin evolución después del entrenamiento inicial.

Los RNN, por otro lado, además de la carga útil (como una imagen para describir) reciben su propia salida de la aplicación anterior (y de forma transitiva de todas las aplicaciones anteriores). De esta forma, pueden transferir algunos datos al “yo futuro” formando así una especie de memoria y evolucionando más lejos de nuevas instancias de aplicación.

More Interesting

¿Qué podría ser un buen proyecto para hacer que combine inteligencia artificial y química y física teórica / computacional?

Cómo dejar de temer la inteligencia artificial y la automatización

Si una aplicación usa NLP para analizar el texto del usuario y luego devolver las imágenes en consecuencia, ¿este uso de NLP entraría en la categoría AI?

¿Qué tipo de lenguaje de programación es particularmente útil para construir robots con IA?

¿Cuáles son algunos problemas abiertos en el aprendizaje automático para geodatos?

¿Cómo ha influido el trabajo de Noam Chomsky en el campo de la inteligencia artificial?

Cómo implementar un abandono en redes neuronales profundas

Cómo hablar con los laicos sobre la IA cuando inmediatamente comienzan a hablar sobre la inevitabilidad de los robots que se apoderan del mundo a la Skynet

¿Cómo compararía la trayectoria profesional de un doctorado en aprendizaje automático que trabaja en la industria con aquellos sin un doctorado que trabaje en problemas de aprendizaje automático?

¿Los robots van a conquistar el universo?

¿Cuáles son las diferencias clave entre el aprendizaje del programa bayesiano y el aprendizaje profundo?

¿Cuáles son algunos ejemplos de la vida real de las redes neuronales de Bayes?

¿AI hará una nueva revolución industrial con todas sus consecuencias económicas, sociales y políticas? ¿Cómo?

¿Por qué solo se utilizan redes neuronales convolucionales para imágenes, en lugar de otras técnicas de aprendizaje profundo?

¿Cuánta potencia informática requiere un robot inteligente general?