Aprendizaje profundo: ¿Por qué la función energética de la máquina de Boltzmann restringida se define de la manera en que se define?

La mecánica estadística ha desempeñado un papel importante en la neurociencia computacional y su aplicación a la investigación de aprendizaje automático durante mucho tiempo.

y el modelo de Ising es el caballo de batalla de la mecánica estadística

El modelo de Ising es en realidad un modelo correcto de la dinámica de las neuronas reales en ciertos puntos estables.

Esto se ve a través del trabajo de Jack Cowan en la Universidad de Chicago y el modelo Wilson-Cowan de la dinámica de las neuronas.

Modelo Wilson-Cowan
ver
Interacciones excitatorias e inhibitorias en poblaciones localizadas de neuronas modelo
Hugh R. Wilson y Jack D. Cowan 1972
Interacciones excitatorias e inhibitorias en poblaciones localizadas de neuronas modelo

y esta revisión semi-reciente

El modelo Wilson-Cowan, 36 años después (2009)
Página en salk.edu

y también ver:

Fue Cowan, en la Universidad de Chicago, quien primero propuso la función Sigmoide que vemos aparecer en las redes de Deep Learning

Aunque incluso él admite que no vio la conexión con el aprendizaje automático en la década de 1960 (vea el video)

Este fue un estudio clave que fue uno de los primeros en utilizar métodos numéricos para estudiar las neuronas modelo, y demostró primero la existencia de múltiples estados estables y de histéresis, características de los sistemas de no equilibrio.

Poco después de que se presentara el modelo Wislon-Cowan, Little (1974) reconoció que podría emplearse un modelo más simple en los puntos estacionarios (donde el modelo satisface el equilibrio detallado)

Es decir, se reconoció a principios de los años 70 que el modelo Ising sería un buen modelo para la memoria.

El modelo clásico de física para este tipo de sistemas es un modelo Ising. Entonces, al principio, había 2 modelos de ML inspirados en stat-mech principales. Estos son como ‘modelos esféricos de neuronas de vaca’ en el sentido de que en realidad no describen neuronas reales sino que son abstracciones matemáticas diseñadas para capturar la ‘esencia’ de la función de aprendizaje

la red Hopfield
JJ Hopfield, “Redes neuronales y sistemas físicos con habilidades computacionales colectivas emergentes”, Actas de la Academia Nacional de Ciencias de los Estados Unidos, vol. 79 no. 8 págs. 2554–2558, abril de 1982.

y el mapa autoorganizado
Kohonen, Teuvo (1982). “Formación autoorganizada de mapas de características topológicamente correctas”. Cibernética biológica 43 (1): 59–69.

Este fue también el momento en que la teoría del caos se estaba volviendo popular, y estos mínimos representaban atractores caóticos. Se argumentó que el cerebro era un sistema autoorganizado y caótico. Esta idea persiste hoy.

Sin embargo, pronto se reconoció que los modelos computacionales asociados de ML eran demasiado complicados y no convergían bien en las simulaciones numéricas. así que se hicieron esfuerzos para mejorar la convergencia directamente y / o encontrar soluciones aproximadas que podrían usarse para pre-entrenar (es decir, sembrar el problema de optimización no convexo)

Por ejemplo, otra función energética que se había explorado es el Gas de Neurona, introducido en 1991 por Martinetz y Schulten. Este método cambia la función de energía como un medio para acelerar la convergencia del Mapa de autoorganización.

Sin embargo, siempre se sospechó que una vez que una red neuronal se hiciera muy grande, se comportaría como una función convexa (es decir, el vidrio giratorio de mínima frustración)

¿Por qué funciona el aprendizaje profundo?

Del mismo modo, los RBM fueron reconocidos como problemas mucho más fáciles de resolver que las redes de backprop completas, y se hicieron muy populares como un método para pre-entrenar redes más grandes.

A partir de 2015, parece que también existe una conexión profunda entre el aprendizaje profundo y la teoría del grupo de renormalización.
Por qué Deep Learning Works II: el Grupo de Renormalización
y que la elección de la función de energía puede permitir un punto fijo RG

(En mi humilde opinión, esto es bastante interesante, especialmente el trabajo reciente de Cowan sugiere que el cerebro mismo está operando en un punto subcrítico justo debajo de una transición de fase)

Aunque incluso un análisis simple muestra que el RBM es equivalente a una red Hopfield en el límite termodinámico

Sobre la equivalencia de Hopfield Networks y Boltzmann Machines (2012)
Página en arxiv.org

[Las redes neuronales convolucionales se basan en este trabajo inicial, pero están inspiradas en nuestra comprensión actual de cómo el cerebro procesa la información visual. Supongo que esto está más allá de la pregunta, que solo pregunta sobre la función de energía y no sobre la estructura de la red]


Para obtener más datos divertidos y respuestas increíbles, consulte mi canal de YouTube https://www.youtube.com/channel/…

y sígueme en Twitter https://twitter.com/CalcCon

Esta es una buena pregunta ya que los documentos originales sobre la máquina Boltzmann (BM) de Sejnowski et al. nunca mostró la relación matemática entre la distribución de Boltzmann y la correspondiente función de activación. La respuesta corta es que las funciones de activación pueden derivarse simplemente mediante análisis bayesiano. Para un BM,

P (x) = exp (-E (x)) / (sum_ (x ‘) exp (E (x’))) (1)

dónde:

x = estado de la BM

P (x) = probabilidad de x generada por el BM
(cuando se ejecuta en equilibrio)

E (x) = -sum_ (ij) x_i x_j (ignorando sesgos) = la función de energía

Si asume que las unidades x son binarias y derivan P (x_i | x_j: j! = I) (‘! =’ Significa ‘no igual’) de la ecuación 1, deriva la función de activación estocástica sigmoidal:

P (x_i = 1 | x_j: j! = I) = siqmoid (suma (w_ij * x_j: j! = I))) (2)

es decir, la función de activación estándar de una unidad BM (ignorando sesgos), mediante el uso de la regla de Bayes con la ecuación. 1 para obtener la ec. 2. Hinton, Rosen-Zvi y Welling, titulados “Armonios familiares exponenciales con una aplicación para la recuperación de información”, escriben un buen artículo sobre la generalización del BM, o realmente, sobre la generalización de las máquinas de Boltzmann restringidas. Las diferentes formas de RBM derivadas en ese documento se pueden alcanzar utilizando la regla de Bayes como se indicó anteriormente.

De las ecuaciones. 1 y 2 no es difícil demostrar que la dinámica de transición de un BM obedece a “equilibrio detallado” donde la probabilidad de estar en la transición de x a x ‘es la misma que estar en la transición en reversa, es decir, P (x) P (x-> x ‘) = P (x’) P (x ‘-> x), donde P (x) se refiere a la probabilidad de estar en el estado x para la distribución de equilibrio de la BM. Esto significa que el BM no tiene información con respecto a la secuencia de los estados, al menos en equilibrio (afirma una causalidad). Desde un punto de vista práctico, podría ser más fácil usar la ecuación de equilibrio detallada para derivar, por ejemplo, las funciones de activación que el método descrito en el párrafo anterior.

También es interesante considerar qué tipo de distribución se generará a partir de una red totalmente conectada como la BM pero con algunas funciones de activación de la unidad arbitrariamente inventadas. En general, dicha distribución no estará en equilibrio detallado, y de hecho puede que ni siquiera haya una distribución de equilibrio.

Me pregunto si el autor de esta pregunta tiene una mentalidad algo parecida a la mía, ya que esta pregunta se hizo grande en mi mente cuando comencé a estudiar esto. Siendo ingeniero mecánico y más apto para pensar en la operación “visceral” del BM, me sorprendió que su comportamiento pueda reducirse a una ecuación muy simple. Pero al menos ahora veo cómo funciona más visceralmente de lo que solía hacerlo. La clave es que la distribución de equilibrio de la BM está implícita en la suma de todos los estados en la función de partición (el denominador de la ecuación 1), es decir, este último está realizando una expectativa. Quizás la parte más interesante es cómo la suma de todos los estados se reduce a una suma de todos los estados locales al encontrar la función de activación (ecuación 2).

Todos nuestros esfuerzos en el aprendizaje automático están dedicados al diseño de discriminadores de algún tipo. Es decir, queremos diseñar sistemas que discriminen las entradas buenas de las malas. También queremos asegurarnos de que el sistema aprenda a discriminar entre las entradas de manera predecible. Uno de esos sistemas es el modelo basado en energía. En el modelo basado en la energía, tendemos a crear una analogía con los sistemas termodinámicos. El aprendizaje se realiza minimizando la energía del sistema para entradas deseables y no minimizándola para las entradas indeseables.
El esfuerzo inicial para crear los modelos basados ​​en energía intentó imitar los sistemas termodinámicos. Como siempre, aprender de la naturaleza es la mejor manera. Puede definir su propia función energética (o como quiera llamarla), en la medida en que pueda definir un procedimiento de aprendizaje eficiente para ello, lo está haciendo bien.

Su pregunta sugiere 2 formas diferentes de modificar la función de energía: (1) diferentes tipos de unidades y (2) más tipos de conexiones. Para el primero, puede usar cualquier distribución que pueda describirse en familia exponencial y luego combinarlas multiplicativamente. La distribución combinada también pertenece a la familia exponencial. Luego puede descomponer el término de probabilidad de registro en expectativas dependientes e independientes de datos. Para el segundo, también puede agregar conexiones entre unidades, pero ahora el modelo es “sin restricciones” y más complicado (por ejemplo, RBM condicional y máquina Boltzmann). Tendrá que recurrir a una forma de aproximación para estimar los datos dependientes. El costo computacional también aumenta.

More Interesting

¿Cuándo es el final de la red neuronal profunda? La gente está loca por esto y muchos de ellos no saben lo que está pasando dentro

¿Cuál es la mejor manera de distribuir una aplicación de iOS para un proyecto de investigación?

¿Qué es el LSTM?

Cómo hacer la clasificación y agrupamiento de documentos en rapidMiner

¿Qué hacen los ingenieros de aprendizaje automático diariamente?

¿Por qué el aprendizaje automático, las redes neuronales y otros enfoques de IA, por ejemplo, no se usan más ampliamente en las predicciones del mercado de valores?

¿Qué tan importante es la optimización de hiperparámetros en los modelos gráficos bayesianos, como la asignación de Dirichlet latente?

¿Qué es este aprendizaje automático y big data?

¿Podría el aprendizaje automático erradicar el cáncer?

¿Qué es ingenuo Bayes, clasificación de espacio vectorial y máquinas de vectores de soporte en la recuperación de información?

¿Cuáles son las ventajas y desventajas de utilizar una combinación de impulso + árboles de decisión frente a algún otro enfoque en un problema de clasificación?

¿Cómo son útiles las redes neuronales convolucionales para las empresas e industrias normales?

¿Cómo se puede utilizar la máquina de Boltzmann restringida en problemas de clasificación?

Cómo aprender y construir un chatbot inteligente basado en inteligencia artificial como Google Allo desde cero, con un mayor enfoque en el modelo de dominio cerrado basado en la recuperación y el aprendizaje de ML y NLP

¿Cuál es la diferencia entre IA, aprendizaje automático y aprendizaje profundo?