Esta es una buena pregunta, en general tienen sentido cuando la tarea se trata más de mapear de un espacio a otro, en lugar de tratar de inferir alguna estructura interna imprecisa mal definida.
La traducción automática es un gran ejemplo de ese mapeo donde los espacios son palabras y frases en los idiomas respectivos. Es cierto que el problema no es todo el mapeo, pero también hay un estado interno relacionado con los contextos que los mejores sistemas de traducción automática tienen que manejar.
Sin embargo, se puede suponer que estos contextos son de tamaño limitado y pueden ser manejados por capas de convoluciones. La suposición de tamaño limitado es clave ya que desbloquea convoluciones apiladas ventajas potenciales tales como la eliminación de gradientes que desaparecen, lo cual es problemático en las RNN.
- Análisis de conglomerados: ¿Cuáles son algunas posibles medidas de distancias / diferencias para variables binarias?
- ¿Puedes explicar el hashing de características de una manera fácil de entender?
- ¿Cuál es la diferencia entre los pronósticos de combinación y conjunto?
- ¿Existe alguna implementación de aprendizaje profundo de respuesta basada en la recuperación de preguntas?
- ¿Cómo podemos "entrenar" sistemáticamente los algoritmos de agrupación sobre qué combinaciones de atributos / características generan en última instancia los tipos deseados de agrupaciones?
Otro ejemplo de mapeo sería el resumen de texto donde el contexto es nuevamente bastante limitado.
Los RNN realmente tratan sobre estructuras internas implícitas muy grandes que son difíciles de pensar. Esta es la razón por la cual el artículo seminal de Andrej Karpathy, La irrazonable efectividad de las redes neuronales recurrentes, ha resonado tanto como pudo demostrar una efectividad aparentemente sorprendente en áreas tan diversas como ensayos de Paul Graham, artículos de Wikipedia, Shakespeare y el código fuente de Linux. No estaba claro, y aún no está claro, qué estaban aprendiendo y capturando exactamente los RNN, pero las impresiones superficiales de los resultados sintetizados fueron muy buenas.
Esto fue seguido por otra aparente sorpresa, que los resultados iniciales que comenzaban con palabras podían casi reproducirse solo de los caracteres. Esto suena aún más extravagante ya que los RNN a nivel de personaje tienen que aprender no solo el estilo del corpus, por así decirlo, sino también cosas como la sintaxis y la gramática desde cero cada vez. Los resultados experimentales mostraron que es bastante factible.
En resumen, la sabiduría convencional es que los RNN deben usarse cuando el contexto es más rico y hay más información de estado que debe capturarse. Esta propuesta ha sido cuestionada por las CNN con la afirmación de que la información de estado finito de alcance limitado puede ser manejada de manera más eficiente por múltiples capas de convolución.
Creo que ambas son ciertas, y uno no debería optar por las RNN por el simple hecho de hacerlo, sino que deberían probarse CNN profundas más eficientes en situaciones de contexto limitado. Pero para los mapeos implícitos más complejos donde los intervalos de información de contexto y estado son mucho más grandes, los RNN son la mejor y, en este punto, casi la única herramienta.