¿Por qué una red neuronal no es propensa al sobreajuste a pesar de tener tantos parámetros?

Sospecho que las redes neuronales operan en un punto subcrítico justo debajo de una transición de fase de un estado de generalización a un estado de sobreentrenamiento

Este comportamiento se ha entendido bien en redes muy simples como Hopfield Associative Memories. Aquí, la red almacena instancias como patrones de memoria. Cuando solo se almacenan unos pocos patrones, es fácil recuperar / reconocer un patrón basado solo en una pequeña parte de la instancia. Cuando se cargan demasiados patrones en la red, la red olvida todos los patrones almacenados en ella.

Esto ocurre porque la red Hopfield Net experimenta una transición de fase, la llamada transición del vidrio giratorio. El estado del vidrio giratorio representa una condición patológica en la que el sistema parece tener un número infinito de mínimos locales separados por barreras infinitamente altas. Cuando hay demasiados patrones (o, de manera equivalente, no hay suficientes nodos), la red se frustra y no puede recuperar la memoria correcta.

Se ha propuesto un mecanismo similar sobre cómo la naturaleza optimiza la estructura terciaria de proteínas. En la naturaleza, cada proteína tiene una configuración de energía mínima global correspondiente a la estructura del estado nativo, pero también puede existir en estados mal plegados de mayor energía. Al igual que una red de aprendizaje profundo, la naturaleza encuentra el “vaso giratorio de mínima frustración”. El estado nativo es esa configuración única de baja energía que se encuentra en el fondo de un paisaje de energía convexa. Si se cambian las condiciones naturales (temperatura, presión, ambiente químico), la proteína se pliega erróneamente y existe en 1 o más configuraciones no óptimas

Esto explica 2 fenómenos en redes neuronales.

1. ¿Cómo pueden aprender tan bien con tantos parámetros ajustables? La respuesta es que los algoritmos de aprendizaje prueban el vidrio giratorio de mínima frustración que es casi convexo y alcanza un pico muy agudo.

2. El sobreentrenamiento se evita mediante la regularización (que disminuye el número de pesos ajustables), evitando así el muestreo de la fase de vidrio giratorio.

Además, sospecho que los métodos de regularización, como el abandono, son muestreos efectivos cerca de la transición del vidrio giratorio al acceder a la réplica de simetría que se rompe como estados que viven justo debajo de la transición en un estado subcrítico

Ahora bien, esto es prácticamente una conjetura y se basa en una analogía con modelos simples de la teoría de la materia condensada y la química teórica,

Aprendizaje automáticoArtificialInteligenciaRedes neuronales artificiales

¿Cuáles son los proyectos de aprendizaje automático que puedo hacer para practicar y aprender como principiante?

Cómo comenzar a trabajar en conjuntos de datos de Kaggle

¿Hay algún resumen de las mejores modelos para el premio de Netflix? ¿Cuáles son las ideas de alto nivel e intuitivas detrás de los modelos ganadores que finalmente fueron utilizados en el aprendizaje conjunto por los mejores equipos?

¿Cómo aprendo estadísticas y probabilidad de aprendizaje automático?

Mi computadora portátil no usará buscar / usar el micrófono de mis auriculares para juegos. ¿Como puedo resolver esto?

¿Es indistinguible si el método t-SNE no muestra dos grupos claros (para un problema de clasificación de 2 clases)?

Es propenso al sobreajuste, pero hay muchas formas de luchar contra el sobreajuste. De hecho, ese es uno de los grandes desafíos del aprendizaje profundo y las redes neuronales. Geoff Hinton dice que para hacer una red generalizable, simplemente se sobreajusta y luego se regulariza a la perfección. Hay muchos métodos de regularización: términos L1 y L2, que recortan los pesos para que no crezcan demasiado; DropOut y DropConnect hacen que las redes neuronales ignoren ciertos nodos o conexiones para aprender otros …

Charles H Martin

Es si no tienes cuidado. Puede sobreajustarse como cualquier otro modelo, dado un conjunto de entrenamiento lo suficientemente pequeño, y un número suficientemente alto de parámetros, y una regularización insuficiente.

Charles H Martin

Tener muchos parámetros no necesariamente conduce a un sobreajuste en sí mismo. Puede reducir la flexibilidad de un modelo con regularización, como paradas anticipadas, abandono, pérdida de peso, etc.

Chris Nicholson

More Interesting

¿Cuáles son algunos de los desafíos y oportunidades sobresalientes en el análisis predictivo con respecto a la privacidad y la propiedad de los datos, el análisis de los datos del usuario, el escalado de algoritmos y los ecosistemas e intercambios de datos emergentes?

¿Cuál es el mejor algoritmo de agrupamiento adaptativo k-means (que k se elige automáticamente)?

Cómo usar el aprendizaje automático para unir un patrón a partir de valores CSV

¿Cuáles son algunas buenas ideas de proyectos o ejemplos para un proyecto de curso de Visión de Computadora basado en Aprendizaje Automático?

¿Cuál es actualmente la mejor GPU para el aprendizaje profundo?

¿Se están utilizando redes neuronales profundas para crear estrategias de fondos de cobertura / HFT?

¿Sería posible leer mentes usando una máquina?

¿Para qué sirve el aprendizaje automático?

¿Cómo implementa una red neuronal de retroalimentación la propagación inversa?

¿Qué son los SVM?