Sospecho que las redes neuronales operan en un punto subcrítico justo debajo de una transición de fase de un estado de generalización a un estado de sobreentrenamiento
Este comportamiento se ha entendido bien en redes muy simples como Hopfield Associative Memories. Aquí, la red almacena instancias como patrones de memoria. Cuando solo se almacenan unos pocos patrones, es fácil recuperar / reconocer un patrón basado solo en una pequeña parte de la instancia. Cuando se cargan demasiados patrones en la red, la red olvida todos los patrones almacenados en ella.
Esto ocurre porque la red Hopfield Net experimenta una transición de fase, la llamada transición del vidrio giratorio. El estado del vidrio giratorio representa una condición patológica en la que el sistema parece tener un número infinito de mínimos locales separados por barreras infinitamente altas. Cuando hay demasiados patrones (o, de manera equivalente, no hay suficientes nodos), la red se frustra y no puede recuperar la memoria correcta.
- ¿Qué se entiende por una solución de referencia en el aprendizaje automático?
- ¿Existe una versión de objetivos múltiples de regresión logística, regresión lineal, SVM, PCA, K-means o algún otro algoritmo de aprendizaje automático?
- ¿Cuál es la diferencia entre un clasificador Naive Bayes y AODE?
- ¿Por qué el artículo de DeepMind sobre el aprendizaje de refuerzo (jugar juegos de atari) ganó popularidad estelar?
- ¿El éxito de un algoritmo particular causa una lentitud de progreso en el desarrollo de mejores algoritmos?
Se ha propuesto un mecanismo similar sobre cómo la naturaleza optimiza la estructura terciaria de proteínas. En la naturaleza, cada proteína tiene una configuración de energía mínima global correspondiente a la estructura del estado nativo, pero también puede existir en estados mal plegados de mayor energía. Al igual que una red de aprendizaje profundo, la naturaleza encuentra el “vaso giratorio de mínima frustración”. El estado nativo es esa configuración única de baja energía que se encuentra en el fondo de un paisaje de energía convexa. Si se cambian las condiciones naturales (temperatura, presión, ambiente químico), la proteína se pliega erróneamente y existe en 1 o más configuraciones no óptimas
Esto explica 2 fenómenos en redes neuronales.
1. ¿Cómo pueden aprender tan bien con tantos parámetros ajustables? La respuesta es que los algoritmos de aprendizaje prueban el vidrio giratorio de mínima frustración que es casi convexo y alcanza un pico muy agudo.
2. El sobreentrenamiento se evita mediante la regularización (que disminuye el número de pesos ajustables), evitando así el muestreo de la fase de vidrio giratorio.
Además, sospecho que los métodos de regularización, como el abandono, son muestreos efectivos cerca de la transición del vidrio giratorio al acceder a la réplica de simetría que se rompe como estados que viven justo debajo de la transición en un estado subcrítico
Ahora bien, esto es prácticamente una conjetura y se basa en una analogía con modelos simples de la teoría de la materia condensada y la química teórica,