Puedo hacer esto para un RBM / MLP si eso es útil.
Considere un Perceptrón multicapa, con 1 capa oculta y 1 nodo de salida
- Si voy a la universidad en 2018 y estudiaré inteligencia artificial, ¿se creará la IA fuerte durante mi vida?
- ¿El chatbot Tay de Microsoft le costó reputación de marca en aprendizaje automático e inteligencia artificial?
- ¿Cómo se puede usar Machine Learning en la historia?
- ¿Dónde se encuentran la inteligencia artificial y el Big Data desde el punto de vista del Big Data?
- Debido a los avances en IA, ¿hay alguna posibilidad de creación de extraterrestres (en forma de robots)?
dónde
para cada punto de datos, lo que lleva a
Si agregamos una segunda capa, la función de salida MLP final tiene una forma similar
así que esto nos da una forma funcional general, en términos de activaciones y capas
Para entrenar un MLP, ejecutamos varias épocas de Backprop. Backprop tiene 2 pases: hacia adelante y hacia atrás:
- Adelante : propague las entradas hacia adelante a través de la red, activando las neuronas
- Hacia atrás : propaga los errores hacia atrás para calcular los gradientes de peso
Ahora afirmaré que Backprop, en un sentido aproximado, se parece a nuestro procedimiento de entrenamiento RBM más familiar. Muestro una conexión directa y obtengo la forma funcional MLP directamente para un RBM.
La idea básica es escribir la inferencia RBM en el formulario EMF-RBM, dando la inferencia en 2 pasos
En un RBM estándar, ejecutamos varias épocas de divergencia contrastante:
- n pasos de muestreo de Gibbs, o algún otro método de equilibrio, para establecer las activaciones neuronales.
- alguna forma de descenso gradiente en las pesas
(ver: Mejora de RBM con química física)
En el enfoque EMF, vemos la inferencia RBM como una secuencia de pasos de recocido determinista, de 1 estado de cuasi equilibrio a otro, que consta de 2 pasos para cada época:
- Adelante: equilibra las activaciones de las neuronas minimizando la energía libre de TAP
- Atrás: calcule los gradientes de peso de TAP Free Energy
- Regularizar : aquí también regularizamos explícitamente los pesos para evitar que la temperatura baje a cero
El llamado paso Adelante resuelve una ecuación de punto fijo (que es similar en espíritu a tomar n pasos de muestreo de Gibbs). Esto conduce a un par de relaciones de recursión acopladas para las magnetizaciones TAP (o solo nodos). Supongamos que tomamos t + 1 iteraciones. Ignoremos la corrección Onsager de segundo orden y consideremos las actualizaciones de campo medias:
Debido a que estos son pasos deterministas , podemos expresar el
en términos de
:
Al final de la recursión, tendremos un pase hacia adelante que se asemeja a un MLP multicapa, pero con pesos y sesgos compartidos / atados:
Esto lleva naturalmente a la siguiente conclusión: el paso hacia atrás EMB RBM ahora se ve Camine directamente por el paisaje de Energía Libre (w./rt los pesos (compartidos)).
Así que ahora hemos relacionado BackProp en un MLP con la inferencia en un RBM
Para completar la analogía, debe comenzar con un RBM supervisado, de modo que Free Energy incluya las etiquetas, como http://machinelearning.org/archi…
Puedes encontrar más detalles en mi blog:
Por qué Deep Learning Works 3: BackProp minimiza la energía libre