¿Por qué los pesos hacia adelante y hacia atrás son iguales en la máquina de Boltzmann restringida?

He estado esperando que otras personas den mejores respuestas, pero como ninguna hasta ahora … Aquí están mis dos centavos:

Primero, RBM es simétrico en su definición, y simétrico significa [matemáticas] W_ {h → v} = W_ {v → h} [/ matemáticas]

(Nota: simétrico no significa que [matemática] W [/ matemática] sea una matriz simétrica que se define como [matemática] A ^ T = A [/ matemática])

Si RBM no es simétrico, entonces ya no es una máquina Boltzmann.

En segundo lugar, RBM es una red basada en energía. Echa un vistazo a la ecuación energética:

[matemática] E (v, h) = v ^ TWh = \ sum \ limits_ {i, j} v_i W_ {ij} h_j [/ math]

Esta energía viene dada por la forma del producto interno. La energía se puede ver desde dos lados. Imagina un juego de ping-pong.

[matemática] v ^ T (Wh) [/ matemática] donde [matemática] Wh [/ matemática] es lo que la capa oculta “propaga” a la capa visible (a través de los pesos de red [matemática] W [/ matemática]).

[matemática] (v ^ TW) h [/ matemática] donde [matemática] v ^ TW [/ matemática] es lo que la capa visible “se propaga” a la capa oculta (a través de los pesos de red [matemática] W [/ matemática]).

Esto significa que vemos la misma cantidad de energía en ambos lados. Por lo tanto, podemos definir la energía de toda la red sin ambigüedad .

Con base en lo anterior, la probabilidad conjunta de [matemáticas] P (v, h) [/ matemáticas] se puede obtener como

[matemática] P (v, h) = \ frac {E (v, h)} {\ sum \ limites_ {v, h} E (v, h)} [/ matemática]

Supongo, porque en ambos lados observamos la misma energía, la red es estable y eventualmente puede alcanzar un equilibrio que es lo que necesitamos.

More Interesting

Cómo implementar Inteligencia Artificial en un Proyecto Arduino

¿Cuáles son algunas aplicaciones del aprendizaje automático en la industria de la geología y la energía?

¿Qué tipo de programas de back-end ejecuta YouTube, como el aprendizaje automático y otros programas funcionales?

¿El sobreajuste en un conjunto de datos implica que el modelo realmente puede aprender y generalizar sobre ese conjunto de datos, pero desafortunadamente demasiado entrenado?

¿Por qué los académicos usan Matlab / Octave y tan pocos en la industria?

¿Cuál es una buena manera de entender esta optimización mediante el uso de un multiplicador lagrangiano?

¿Las redes neuronales convolucionales construyen simetrías locales o globales?

¿Cómo funcionan las redes de propuestas regionales (RPN)?

¿Cuáles son los 10 mejores algoritmos de minería de datos o aprendizaje automático? En 2006, la Conferencia IEEE sobre minería de datos identificó los 10 algoritmos principales. ¿Siguen siendo válidos?

¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?

¿Por qué una gran proporción de los nuevos estudiantes de CS optan por especializarse en áreas más nuevas como el aprendizaje automático, la informática social y la informática móvil en lugar de las más antiguas como los sistemas, la arquitectura y las redes?

¿Qué tan rápido es Theano en comparación con otras implementaciones de DBN? ¿Cómo se compara con otras implementaciones de GPU (potencialmente no públicas) para la velocidad de entrenamiento en grandes conjuntos de datos?

Veo que la mayoría de las API de Machine Learning están en Python, algunas usan C o C ++ bajo el capó. ¿Por qué los desarrolladores de framework no exponen las API de C ++?

¿Por qué los nodos en una capa oculta producen resultados diferentes (cuando se basan en las mismas entradas)?

¿Qué hace que una red neuronal convolucional sea excelente?