tl; dr En una sola capa RNN, la salida se produce al pasarla a través de un único estado oculto que no logra capturar la estructura jerárquica (temporal) de una secuencia. Con un RNN de varias capas, se captura dicha estructura que da como resultado un mejor rendimiento.
Compare RNN con una red neuronal profunda (como CNN) para el reconocimiento de imágenes. A través de la investigación de visualización, sabemos que cada capa en la red captura la estructura. Por ejemplo, las capas iniciales encuentran bordes en una imagen o identifican el color de la imagen. Las capas posteriores se basan en esto para una estructura compleja, como encontrar intersección de bordes o sombras de colores. La capa final reúne todo esto para identificar el objeto en la imagen.
En un RNN de una sola capa, tiene un estado oculto que hace todo el trabajo. Entonces está abrumado. Si está modelando una secuencia como el texto, entonces los parámetros están aprendiendo que ‘a’ es más probable que siga a ‘c’ que ‘o’. Sin embargo, al introducir varias capas, ofrece el RNN para capturar la estructura. La primera capa podría aprender que algunos caracteres son vocales y otros son consonantes. La segunda capa se basaría en esto para aprender que es más probable que una vocal siga una consonante.
- ¿Qué tipos de algoritmos de aprendizaje automático son buenos para aprender representación? ¿Es solo aprendizaje profundo?
- "¿Cómo construir un robot que pueda hacer una pregunta a las personas y reconocer la respuesta de las personas como" sí "o" no "?"
- ¿Cuáles son las perspectivas laborales después de obtener una maestría en ciencias de la computación con una especialización de inteligencia artificial de KU Leuven, Bélgica?
- ¿Cuáles son los modelos de aprendizaje automático (como las redes neuronales artificiales) que se pueden usar para predecir la lluvia?
- ¿Qué progreso se ha logrado en el aprendizaje profundo en 2014?
Hermans y Schrauwen (2013) es una excelente lectura para más detalles.