¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?

Para citar una respuesta de Paulo Villegas,

Como otros han dicho, la deserción es una forma de regularización (restringe la adaptación de la red a los datos en el momento del entrenamiento, para evitar que se vuelva “demasiado inteligente” en el aprendizaje de los datos de entrada; por lo tanto, ayuda a evitar el sobreajuste).

Y en ese sentido, ayuda ver la deserción como una forma de aprendizaje conjunto . En el aprendizaje conjunto, tomamos una serie de clasificadores ‘más débiles’, los entrenamos por separado y luego, en el momento del examen, los usamos promediando las respuestas de todos los miembros del conjunto. Dado que cada clasificador ha sido entrenado por separado, ha aprendido diferentes ‘aspectos’ de los datos y sus errores son diferentes. Combinarlos ayuda a producir un clasificador más fuerte, que es menos propenso al sobreajuste. Los bosques aleatorios o GBT son clasificadores de conjunto típicos.

Una variante de conjunto es el ensacado , en el que cada miembro del conjunto se entrena con una submuestra diferente de los datos de entrada y, por lo tanto, solo ha aprendido un subconjunto de todo el espacio de características de entrada posible.

La deserción, entonces, puede verse como una versión extrema de embolsado. En cada paso de entrenamiento en un mini lote, el procedimiento de abandono crea una red diferente (eliminando al azar algunas unidades), que se entrena utilizando la propagación hacia atrás como de costumbre. Conceptualmente, entonces, todo el procedimiento es similar al uso de un conjunto de muchas redes diferentes (una por paso) cada una entrenada con una sola muestra (es decir, embolsado extremo).

En el momento de la prueba, se utiliza toda la red (todas las unidades) pero con pesos reducidos. Matemáticamente, esto se aproxima al promedio del conjunto (usando la media geométrica como promedio).

Dos documentos que explican esto mucho mejor son:

  • Hinton et al, [1207.0580] Mejora de redes neuronales al evitar la coadaptación de detectores de características, 2012 (probablemente el documento original sobre abandono)
  • Warde-Farley et al, [1312.6197] Un análisis empírico de la deserción en redes lineales por partes, 2014 (analiza la deserción especialmente para el caso de utilizar ReLU como función de activación, posiblemente la más popular), y verifica el comportamiento de la media geométrica para el conjunto promedio)

porque seleccione varios nodos para entrenar en comparación con el uso de todos los nodos.

Regístrate

More Interesting

¿Qué es una regresión logística condicional?

¿Qué hace una capa convolucional 1 × 1?

¿Qué es la base del lenguaje?

¿Cuáles son los mejores usos de Deep Learning para la clasificación de relevancia de búsqueda?

¿Cuáles son algunos marcos de tiempo realistas para dominar diversas habilidades de programación, como el dominio de Python para la ciencia de datos, git, etc.?

¿Qué pasos de procesamiento previo recomendaría para un aprendizaje automático exitoso en un conjunto de datos MNIST?

¿Cuáles son las mejores herramientas de última generación para la extracción de información en Python?

¿Por qué el método de Newton solo es apropiado cuando el hessiano es positivo definido?

¿Cuáles son las principales diferencias entre econometría y aprendizaje automático?

¿Cuáles son los casos de uso (existentes o futuros) en los que el uso de la Red Adversaria Generativa es particularmente interesante?

¿Dónde caen los sistemas de recomendación en los enfoques de aprendizaje automático?

El entrenamiento de redes neuronales profundas utilizando la propagación inversa tiene el problema de un gradiente de error que desaparece y que establece un límite sobre cuántas capas se pueden entrenar efectivamente, entonces, ¿por qué no usar un algoritmo genético para entrenar redes profundas, eliminando la propagación de errores?

La temperatura de la GPU lee 88 C cuando se entrena un LSTM en TensorFlow. ¿Es esto normal (y seguro)?

¿Cuáles son los casos de uso del uso del procesamiento del lenguaje natural (PNL) en diversas industrias?

¿Alguien ha encontrado un análisis matemáticamente riguroso de la unidad LSTM?