La mecánica estadística ha desempeñado un papel importante en la neurociencia computacional y su aplicación a la investigación de aprendizaje automático durante mucho tiempo.
y el modelo de Ising es el caballo de batalla de la mecánica estadística
El modelo de Ising es en realidad un modelo correcto de la dinámica de las neuronas reales en ciertos puntos estables.
- ¿Cuáles son algunos ejemplos de inferencia?
- ¿Qué es un modelo de mezcla de Bernoulli?
- ¿Existen métodos de aprendizaje automático además de los que requieren redes neuronales?
- ¿Qué consejo le darías a alguien que acaba de comenzar el curso de Andrew Ng sobre aprendizaje automático?
- ¿Cuáles son las restricciones de ordenamiento de la base herbrand en el aprendizaje metainterpretativo?
Esto se ve a través del trabajo de Jack Cowan en la Universidad de Chicago y el modelo Wilson-Cowan de la dinámica de las neuronas.
Modelo Wilson-Cowan
ver
Interacciones excitatorias e inhibitorias en poblaciones localizadas de neuronas modelo
Hugh R. Wilson y Jack D. Cowan 1972
Interacciones excitatorias e inhibitorias en poblaciones localizadas de neuronas modelo
y esta revisión semi-reciente
El modelo Wilson-Cowan, 36 años después (2009)
Página en salk.edu
y también ver:
Fue Cowan, en la Universidad de Chicago, quien primero propuso la función Sigmoide que vemos aparecer en las redes de Deep Learning
Aunque incluso él admite que no vio la conexión con el aprendizaje automático en la década de 1960 (vea el video)
Este fue un estudio clave que fue uno de los primeros en utilizar métodos numéricos para estudiar las neuronas modelo, y demostró primero la existencia de múltiples estados estables y de histéresis, características de los sistemas de no equilibrio.
Poco después de que se presentara el modelo Wislon-Cowan, Little (1974) reconoció que podría emplearse un modelo más simple en los puntos estacionarios (donde el modelo satisface el equilibrio detallado)
Es decir, se reconoció a principios de los años 70 que el modelo Ising sería un buen modelo para la memoria.
El modelo clásico de física para este tipo de sistemas es un modelo Ising. Entonces, al principio, había 2 modelos de ML inspirados en stat-mech principales. Estos son como ‘modelos esféricos de neuronas de vaca’ en el sentido de que en realidad no describen neuronas reales sino que son abstracciones matemáticas diseñadas para capturar la ‘esencia’ de la función de aprendizaje
la red Hopfield
JJ Hopfield, “Redes neuronales y sistemas físicos con habilidades computacionales colectivas emergentes”, Actas de la Academia Nacional de Ciencias de los Estados Unidos, vol. 79 no. 8 págs. 2554–2558, abril de 1982.
y el mapa autoorganizado
Kohonen, Teuvo (1982). “Formación autoorganizada de mapas de características topológicamente correctas”. Cibernética biológica 43 (1): 59–69.
Este fue también el momento en que la teoría del caos se estaba volviendo popular, y estos mínimos representaban atractores caóticos. Se argumentó que el cerebro era un sistema autoorganizado y caótico. Esta idea persiste hoy.
Sin embargo, pronto se reconoció que los modelos computacionales asociados de ML eran demasiado complicados y no convergían bien en las simulaciones numéricas. así que se hicieron esfuerzos para mejorar la convergencia directamente y / o encontrar soluciones aproximadas que podrían usarse para pre-entrenar (es decir, sembrar el problema de optimización no convexo)
Por ejemplo, otra función energética que se había explorado es el Gas de Neurona, introducido en 1991 por Martinetz y Schulten. Este método cambia la función de energía como un medio para acelerar la convergencia del Mapa de autoorganización.
Sin embargo, siempre se sospechó que una vez que una red neuronal se hiciera muy grande, se comportaría como una función convexa (es decir, el vidrio giratorio de mínima frustración)
¿Por qué funciona el aprendizaje profundo?
Del mismo modo, los RBM fueron reconocidos como problemas mucho más fáciles de resolver que las redes de backprop completas, y se hicieron muy populares como un método para pre-entrenar redes más grandes.
A partir de 2015, parece que también existe una conexión profunda entre el aprendizaje profundo y la teoría del grupo de renormalización.
Por qué Deep Learning Works II: el Grupo de Renormalización
y que la elección de la función de energía puede permitir un punto fijo RG
(En mi humilde opinión, esto es bastante interesante, especialmente el trabajo reciente de Cowan sugiere que el cerebro mismo está operando en un punto subcrítico justo debajo de una transición de fase)
Aunque incluso un análisis simple muestra que el RBM es equivalente a una red Hopfield en el límite termodinámico
Sobre la equivalencia de Hopfield Networks y Boltzmann Machines (2012)
Página en arxiv.org
[Las redes neuronales convolucionales se basan en este trabajo inicial, pero están inspiradas en nuestra comprensión actual de cómo el cerebro procesa la información visual. Supongo que esto está más allá de la pregunta, que solo pregunta sobre la función de energía y no sobre la estructura de la red]
Para obtener más datos divertidos y respuestas increíbles, consulte mi canal de YouTube https://www.youtube.com/channel/…
y sígueme en Twitter https://twitter.com/CalcCon