¿Por qué el NN recurrente agrega el paso T-1 a la entrada actual pero se concatena?

¿Podría mostrar todo el diseño de la red?

Dado que las neuronas generalmente agregan todas sus entradas en una sola suma antes de aplicar una función de transferencia, la concatenación simplemente suena como agregar un paso adicional para ninguna buena razón.

Editar:

Encontré el problema después de una discusión en la sección de comentarios, así que aquí hay una explicación:

[math] U [/ math] es una matriz de peso, [math] x_t [/ math] es una matriz de entrada.

[matemáticas] U = \ begin {pmatrix} u_1 & u_2 & u_3 \ end {pmatrix} [/ math]
[matemáticas] x_t = \ begin {pmatrix} x_1 \\ x_2 \\ x_3 \ end {pmatrix} [/ math]

Cuando los multiplica, obtiene un valor escalar:
[matemáticas] U \ cdot x_t = u_1 \ cdot x_1 + u_2 \ cdot x_2 + u_3 \ cdot x_3 [/ math]

Lo mismo ocurre con [matemáticas] W \ cdot s_ {t-1} [/ matemáticas].

Esto significa que concatenando [matemática] W [/ matemática] a [matemática] U [/ matemática], para crear una matriz de peso más grande, y concatenando [matemática] s_ {t-1} [/ matemática] a [matemática] x_t [ / math] para crear una matriz de entrada más grande, tiene el mismo efecto que simplemente realizar las dos multiplicaciones de la matriz por su cuenta y luego sumar los dos valores escalares: [math] Sum = (u_1 \ cdot x_1 + u_2 \ cdot x_2 + u_3 \ cdot x_3) + (w_1 \ cdot s_1 + w_2 \ cdot s_2 + w_3 \ cdot s_3) [/ math].

AlgoritmosAprendizaje automáticoRecurrenciaRedes neuronales artificiales

Related Content

¿Qué es el algoritmo de soporte?

1,000 participantes toman un examen que consta de 100 preguntas y 5 opciones por pregunta. ¿Cuál es el mejor enfoque (algoritmo) para encontrar todos los pares posibles de participantes con al menos un 80% de coincidencia en las opciones que eligieron?

¿Cuál es el mejor enfoque para mí para aprender algoritmos y estructuras de datos?

¿Por qué un algoritmo de búsqueda binaria se considera más importante que la búsqueda lineal menos complicada?

¿Cómo debo diseñar un buen algoritmo de disminución de tiempo?

¿Cuál es el propósito de construir un árbol de expansión mínimo?

¿Cuáles son los diferentes modelos de consumo en la nube?

More Interesting

¿Podemos modificar la técnica de descomposición de la raíz cuadrada a la descomposición de la raíz cúbica? Si no, ¿por qué?

¿Por qué el método de ordenación Javascript organiza los números de una matriz en orden ascendente con [código] (a - b) [/ código] y descendente con [código] (b - a) [/ código]?

¿Qué número de puntos cruzados será el mejor para mi algoritmo genético?

¿Qué es la inserción táctica?

¿Es necesario el conocimiento de algoritmos clásicos para convertirse en un experto en inteligencia artificial?

Cómo visualizar algunas estructuras de datos básicos y algoritmos

Cómo verificar si un algoritmo que hice en C ++ es eficiente en la vida real

¿Cuáles son los tipos de algoritmos más básicos y complicados?

¿Cuáles son los algoritmos detrás de las simulaciones de partículas en C / C ++?

¿Existe un algoritmo para aplicar a una imagen que muestre lo que vería alguien que necesita corrección de la visión?

¿Cuál es el mejor algoritmo de sustracción automática de fondo para una sola imagen?

¿Qué algoritmos pueden detectar si dos imágenes / objetos son similares o no?

Cómo calcular la similitud semántica entre un automóvil y una bicicleta mediante el algoritmo Jian y Conrath

Cómo escribir un código para fusionar dos listas vinculadas ordenadas

¿Hay alguna estructura de datos que pueda realizar las funciones de inserción, búsqueda y eliminación en O (log n)?

Web Analytics