El mecanismo a través del cual funciona el abandono ya se ha explicado en otras respuestas. Solo comentaré una explicación de por qué mejora el rendimiento. Como otros han dicho, el abandono es una forma de regularización (restringe la adaptación de la red a los datos en el momento del entrenamiento, para evitar que se vuelva “demasiado inteligente” en el aprendizaje de los datos de entrada; por lo tanto, ayuda a evitar el sobreajuste).
Y en ese sentido, ayuda ver la deserción como una forma de aprendizaje conjunto . En el aprendizaje conjunto, tomamos una serie de clasificadores ‘más débiles’, los entrenamos por separado y luego, en el momento del examen, los usamos promediando las respuestas de todos los miembros del conjunto. Dado que cada clasificador ha sido entrenado por separado, ha aprendido diferentes ‘aspectos’ de los datos y sus errores son diferentes. Combinarlos ayuda a producir un clasificador más fuerte, que es menos propenso al sobreajuste. Los bosques aleatorios o GBT son clasificadores de conjunto típicos.
Una variante de conjunto es el ensacado , en el que cada miembro del conjunto se entrena con una submuestra diferente de los datos de entrada y, por lo tanto, solo ha aprendido un subconjunto de todo el espacio de características de entrada posible.
- ¿Cómo debo manejar muchas variables categóricas en la capa de entrada de la red neuronal recurrente?
- ¿Se automatizará la ciencia de datos en un futuro cercano?
- ¿En qué tipo de aprendizaje automático (supervisado, no supervisado, refuerzo) se podría clasificar la predicción de rama?
- ¿Es posible construir una inteligencia artificial que aumente su inteligencia, como la máquina Zeno?
- ¿Crees que la IA puede resolver cualquiera de los problemas del milenio antes que los humanos?
La deserción, entonces, puede verse como una versión extrema de embolsado. En cada paso de entrenamiento en un mini lote, el procedimiento de abandono crea una red diferente (eliminando al azar algunas unidades), que se entrena utilizando la propagación hacia atrás como de costumbre. Conceptualmente, entonces, todo el procedimiento es similar al uso de un conjunto de muchas redes diferentes (una por paso) cada una entrenada con una sola muestra (es decir, embolsado extremo).
En el momento de la prueba, se utiliza toda la red (todas las unidades) pero con pesos reducidos. Matemáticamente, esto se aproxima al promedio del conjunto (usando la media geométrica como promedio).
Dos documentos que explican esto mucho mejor son:
- Hinton et al, [1207.0580] Mejora de redes neuronales al evitar la coadaptación de detectores de características, 2012 (probablemente el documento original sobre abandono)
- Warde-Farley et al, [1312.6197] Un análisis empírico de la deserción en redes lineales por partes, 2014 (analiza la deserción especialmente para el caso de usar ReLU como función de activación, posiblemente la más popular), y verifica el comportamiento de la media geométrica para el conjunto promedio)