¿Por qué una red neuronal no es propensa al sobreajuste a pesar de tener tantos parámetros?

Sospecho que las redes neuronales operan en un punto subcrítico justo debajo de una transición de fase de un estado de generalización a un estado de sobreentrenamiento

Este comportamiento se ha entendido bien en redes muy simples como Hopfield Associative Memories. Aquí, la red almacena instancias como patrones de memoria. Cuando solo se almacenan unos pocos patrones, es fácil recuperar / reconocer un patrón basado solo en una pequeña parte de la instancia. Cuando se cargan demasiados patrones en la red, la red olvida todos los patrones almacenados en ella.

Esto ocurre porque la red Hopfield Net experimenta una transición de fase, la llamada transición del vidrio giratorio. El estado del vidrio giratorio representa una condición patológica en la que el sistema parece tener un número infinito de mínimos locales separados por barreras infinitamente altas. Cuando hay demasiados patrones (o, de manera equivalente, no hay suficientes nodos), la red se frustra y no puede recuperar la memoria correcta.

Se ha propuesto un mecanismo similar sobre cómo la naturaleza optimiza la estructura terciaria de proteínas. En la naturaleza, cada proteína tiene una configuración de energía mínima global correspondiente a la estructura del estado nativo, pero también puede existir en estados mal plegados de mayor energía. Al igual que una red de aprendizaje profundo, la naturaleza encuentra el “vaso giratorio de mínima frustración”. El estado nativo es esa configuración única de baja energía que se encuentra en el fondo de un paisaje de energía convexa. Si se cambian las condiciones naturales (temperatura, presión, ambiente químico), la proteína se pliega erróneamente y existe en 1 o más configuraciones no óptimas

Esto explica 2 fenómenos en redes neuronales.

1. ¿Cómo pueden aprender tan bien con tantos parámetros ajustables? La respuesta es que los algoritmos de aprendizaje prueban el vidrio giratorio de mínima frustración que es casi convexo y alcanza un pico muy agudo.

2. El sobreentrenamiento se evita mediante la regularización (que disminuye el número de pesos ajustables), evitando así el muestreo de la fase de vidrio giratorio.

Además, sospecho que los métodos de regularización, como el abandono, son muestreos efectivos cerca de la transición del vidrio giratorio al acceder a la réplica de simetría que se rompe como estados que viven justo debajo de la transición en un estado subcrítico

Ahora bien, esto es prácticamente una conjetura y se basa en una analogía con modelos simples de la teoría de la materia condensada y la química teórica,

Es propenso al sobreajuste, pero hay muchas formas de luchar contra el sobreajuste. De hecho, ese es uno de los grandes desafíos del aprendizaje profundo y las redes neuronales. Geoff Hinton dice que para hacer una red generalizable, simplemente se sobreajusta y luego se regulariza a la perfección. Hay muchos métodos de regularización: términos L1 y L2, que recortan los pesos para que no crezcan demasiado; DropOut y DropConnect hacen que las redes neuronales ignoren ciertos nodos o conexiones para aprender otros …

Es si no tienes cuidado. Puede sobreajustarse como cualquier otro modelo, dado un conjunto de entrenamiento lo suficientemente pequeño, y un número suficientemente alto de parámetros, y una regularización insuficiente.

Tener muchos parámetros no necesariamente conduce a un sobreajuste en sí mismo. Puede reducir la flexibilidad de un modelo con regularización, como paradas anticipadas, abandono, pérdida de peso, etc.