¿Qué diferencia exactamente una red neuronal recurrente de una red de alimentación directa con una ventana de tiempo limitado?

Las redes neuronales recurrentes eliminan la suposición de Markovian.

Si considera la red neuronal de avance con una ventana de tiempo limitada, está haciendo que su modelo se base en un contexto limitado y, por lo tanto, supone que después de cierto punto, el contexto no importa. Esto es lo que hacen los modelos ocultos de Markov.

Las redes neuronales recurrentes (en teoría) permiten que persista información de un número ilimitado de pasos anteriores. Esto sucede porque la salida en cada paso está influenciada tanto por la entrada actual como por la salida anterior. Es decir, la entrada 1 influye en la salida 1, que influye en la salida 2, y así, siempre que lo desee, de modo que la entrada 1 afecta a la última salida. Definitivamente, este no es el caso con la red feedforward que analiza un contexto de tamaño fijo.

PD: la razón por la que digo que esto es cierto solo en teoría es que los RNN simples en realidad tienden a olvidar la información del pasado muy rápidamente. Las soluciones a esto son usar RNN cerrados que tengan buena persistencia de memoria, como GRU y LSTM.

El RNN tiene la salida de cada neurona conectada con la entrada de cada neauron, mientras que la red FF con una ventana de tiempo tiene la salida de la capa de salida conectada con la entrada del NN.