Para citar una respuesta de Paulo Villegas,
Como otros han dicho, la deserción es una forma de regularización (restringe la adaptación de la red a los datos en el momento del entrenamiento, para evitar que se vuelva “demasiado inteligente” en el aprendizaje de los datos de entrada; por lo tanto, ayuda a evitar el sobreajuste).
Y en ese sentido, ayuda ver la deserción como una forma de aprendizaje conjunto . En el aprendizaje conjunto, tomamos una serie de clasificadores ‘más débiles’, los entrenamos por separado y luego, en el momento del examen, los usamos promediando las respuestas de todos los miembros del conjunto. Dado que cada clasificador ha sido entrenado por separado, ha aprendido diferentes ‘aspectos’ de los datos y sus errores son diferentes. Combinarlos ayuda a producir un clasificador más fuerte, que es menos propenso al sobreajuste. Los bosques aleatorios o GBT son clasificadores de conjunto típicos.
- ¿Por qué Google TensorFlow usa OpenCL y no OpenGL? ¿Cuáles son las ventajas?
- ¿Por qué el aprendizaje profundo solo funciona bien en datos no estructurados?
- ¿Qué se entiende exactamente por pesos compartidos en una red neuronal convolucional?
- ¿Qué matemáticas se necesitan para este curso de aprendizaje automático?
- ¿A qué se refiere el concepto de sesgo de presentación-retroalimentación en el contexto del aprendizaje automático?
Una variante de conjunto es el ensacado , en el que cada miembro del conjunto se entrena con una submuestra diferente de los datos de entrada y, por lo tanto, solo ha aprendido un subconjunto de todo el espacio de características de entrada posible.
La deserción, entonces, puede verse como una versión extrema de embolsado. En cada paso de entrenamiento en un mini lote, el procedimiento de abandono crea una red diferente (eliminando al azar algunas unidades), que se entrena utilizando la propagación hacia atrás como de costumbre. Conceptualmente, entonces, todo el procedimiento es similar al uso de un conjunto de muchas redes diferentes (una por paso) cada una entrenada con una sola muestra (es decir, embolsado extremo).
En el momento de la prueba, se utiliza toda la red (todas las unidades) pero con pesos reducidos. Matemáticamente, esto se aproxima al promedio del conjunto (usando la media geométrica como promedio).
Dos documentos que explican esto mucho mejor son:
- Hinton et al, [1207.0580] Mejora de redes neuronales al evitar la coadaptación de detectores de características, 2012 (probablemente el documento original sobre abandono)
- Warde-Farley et al, [1312.6197] Un análisis empírico de la deserción en redes lineales por partes, 2014 (analiza la deserción especialmente para el caso de utilizar ReLU como función de activación, posiblemente la más popular), y verifica el comportamiento de la media geométrica para el conjunto promedio)