La deserción es principalmente una técnica de regularización. Introduce el ruido en una red neuronal para obligar a la red neuronal a aprender a generalizar lo suficientemente bien como para lidiar con el ruido. (Esta es una gran simplificación excesiva, y la deserción es realmente mucho más que solo robustez al ruido)
La normalización por lotes es principalmente una técnica para mejorar la optimización.
Como efecto secundario, la normalización de lotes introduce un poco de ruido en la red, por lo que puede regularizar un poco el modelo.
- Cómo entrenar clasificador lineal paso a paso con Caffe, utilizando las respuestas de la última capa completamente conectada del modelo AlexNet como características
- ¿Es posible una batalla de humanos contra máquinas en el futuro previsible?
- ¿El parámetro C afecta a una clase SVM?
- Con la introducción de la inteligencia artificial, ¿podrán las computadoras tener un alto coeficiente intelectual?
- ¿En qué se basa IBM Watson? ¿Es una alternativa interna de IBM a TensorFlow?
Cuando tiene un conjunto de datos grande, es importante optimizar bien, y no es tan importante regularizar bien, por lo que la normalización por lotes es más importante para conjuntos de datos grandes. Por supuesto, puede usar tanto la normalización de lotes como la deserción al mismo tiempo. Hago esto para algunas de mis GAN en este documento: [1606.03498] Técnicas mejoradas para entrenar GAN