¿Cuál es la diferencia entre la deserción y la normalización de lotes?

La deserción es principalmente una técnica de regularización. Introduce el ruido en una red neuronal para obligar a la red neuronal a aprender a generalizar lo suficientemente bien como para lidiar con el ruido. (Esta es una gran simplificación excesiva, y la deserción es realmente mucho más que solo robustez al ruido)

La normalización por lotes es principalmente una técnica para mejorar la optimización.

Como efecto secundario, la normalización de lotes introduce un poco de ruido en la red, por lo que puede regularizar un poco el modelo.

Cuando tiene un conjunto de datos grande, es importante optimizar bien, y no es tan importante regularizar bien, por lo que la normalización por lotes es más importante para conjuntos de datos grandes. Por supuesto, puede usar tanto la normalización de lotes como la deserción al mismo tiempo. Hago esto para algunas de mis GAN en este documento: [1606.03498] Técnicas mejoradas para entrenar GAN

Ambos métodos son métodos de ‘regularización por entrenamiento’. La regularización típica es explícita en la función objetivo (los ejemplos serían términos de regularización L1 y L2).

La deserción funciona porque el proceso crea múltiples conjuntos implícitos que comparten pesos. La idea es que para cada conjunto de entrenamiento, elimines al azar más del 50% de las neuronas. Así que efectivamente, momentáneamente tiene un subconjunto de la red neuronal original que ejecuta inferencia y obtiene su actualización de pesos. Tan eficaz que tiene muchas más redes neuronales trabajando como un conjunto para eventualmente realizar la clasificación.

La normalización de lotes es diferente en el sentido de que normaliza dinámicamente las entradas por mini lote. La investigación indica que al eliminar Dropout mientras se usa Batch Normalization, el efecto es un aprendizaje mucho más rápido sin una pérdida de generalización. La investigación parece haberse realizado en la arquitectura de inicio de Google.

Entonces, para responder la pregunta, use la Normalización de lotes en arquitecturas de inicio en lugar de DropOut. Mi intuición es que Inception ya tiene mucho peso compartido como consecuencia de su estructura óptima. Por lo tanto, los beneficios de generalización de DropOut tienen rendimientos decrecientes.

En cuanto a la pregunta de “¿Por qué BN proporciona una buena generalización?” Esa es otra pregunta.

Regularización de abandono, BN estabiliza la red.

More Interesting

Cómo detectar y eliminar valores atípicos de ese conjunto de datos

¿Cuál es la explicación simple del modelo de Ising y Potts?

¿Cuándo es un bosque aleatorio una mala elección en relación con otros algoritmos?

¿Qué pasos son necesarios para construir un sistema de aprendizaje profundo para el análisis de sentimientos, tomando como datos de entrada de las redes sociales?

¿El aprendizaje profundo ha vuelto obsoletos los métodos del núcleo?

¿Debería estudiar aprendizaje automático, aprendizaje profundo o aprendizaje de refuerzo?

¿Cuáles son los trabajos mejor pagados en el aprendizaje automático y qué habilidades requiere?

Aprendizaje automático: ¿es el enfoque descrito a continuación una buena forma de evaluar la calidad de las recomendaciones basadas en comentarios implícitos?

¿Qué requisitos previos debe tener para aprender la teoría de las redes neuronales artificiales?

¿Es posible hacer una selección de características para las tareas de regresión por XGBoost?

¿Las estadísticas necesitan un cambio de marca en respuesta a la ciencia de datos y el aprendizaje automático, que están superando las estadísticas en términos de relevancia? ¿Por qué o por qué no?

Cómo combinar un clasificador basado en características con un modelo de serie temporal como ARIMA

¿Cuáles son los lenguajes de nivel de máquina?

Tengo un conjunto de puntos 3D y cada uno tiene una puntuación. ¿Cómo encuentro / busco un grupo denso de puntos de alta puntuación?

¿Qué factores se basan en comenzar un gráfico de dibujo de una red bayesiana?