¿Por qué el NN recurrente agrega el paso T-1 a la entrada actual pero se concatena?

¿Podría mostrar todo el diseño de la red?

Dado que las neuronas generalmente agregan todas sus entradas en una sola suma antes de aplicar una función de transferencia, la concatenación simplemente suena como agregar un paso adicional para ninguna buena razón.

Editar:

Encontré el problema después de una discusión en la sección de comentarios, así que aquí hay una explicación:

[math] U [/ math] es una matriz de peso, [math] x_t [/ math] es una matriz de entrada.

[matemáticas] U = \ begin {pmatrix} u_1 & u_2 & u_3 \ end {pmatrix} [/ math]
[matemáticas] x_t = \ begin {pmatrix} x_1 \\ x_2 \\ x_3 \ end {pmatrix} [/ math]

Cuando los multiplica, obtiene un valor escalar:
[matemáticas] U \ cdot x_t = u_1 \ cdot x_1 + u_2 \ cdot x_2 + u_3 \ cdot x_3 [/ math]

Lo mismo ocurre con [matemáticas] W \ cdot s_ {t-1} [/ matemáticas].

Esto significa que concatenando [matemática] W [/ matemática] a [matemática] U [/ matemática], para crear una matriz de peso más grande, y concatenando [matemática] s_ {t-1} [/ matemática] a [matemática] x_t [ / math] para crear una matriz de entrada más grande, tiene el mismo efecto que simplemente realizar las dos multiplicaciones de la matriz por su cuenta y luego sumar los dos valores escalares: [math] Sum = (u_1 \ cdot x_1 + u_2 \ cdot x_2 + u_3 \ cdot x_3) + (w_1 \ cdot s_1 + w_2 \ cdot s_2 + w_3 \ cdot s_3) [/ math].