¿Cuál es la utilidad de la normalización por lotes en una red neuronal convolucional muy profunda?

La normalización por lotes (BN) elimina el llamado cambio covariable interno que afecta la velocidad de convergencia de las redes neuronales a gran escala, como las redes neuronales convolucionales (convNet). BN tiene propiedades interesantes como:

  1. Induce algunos efectos de regularización, lo que significa que uno puede disminuir el uso de otros métodos de regularización, como los métodos de regularización de abandono, [matemática] L_1 [/ matemática] y [matemática] L_2 [/ matemática].
  2. Mejora el flujo de gradiente, lo que significa que las funciones de activación saturadas, como las funciones sigmoide o tanh, también se pueden usar en arquitecturas más profundas sin muchos problemas.
  3. Mejora la velocidad de aprendizaje: las redes convergen más rápido a un mínimo en la superficie de error. El cambio de covariable interno dificulta la adaptación de las capas ocultas porque la distribución de datos proyectada a través de capas anteriores sigue cambiando a medida que esas capas aprenden. Para eliminar ese efecto para que las capas ocultas obtengan una distribución de entrada bastante constante, se aplica BN justo antes de cada capa oculta. De esa forma, las capas ocultas pueden adaptarse rápidamente a una entrada con distribución constante que a una distribución que sigue cambiando.
  4. Puede usar grandes tasas de aprendizaje: la naturaleza adaptativa de BN permite grandes tasas de aprendizaje iniciales sin que la red supere el punto mínimo en la superficie de error.

Sin embargo, BN introduce algunos parámetros adicionales. Pero normalmente ayuda a las redes neuronales a aprender de manera muy eficiente, por lo que no es un gran problema.

Espero que esto ayude.

More Interesting

¿Qué clasificador es el más adecuado para clasificar los signos en un video de lenguaje de señas?

¿Cuál es la próxima gran cosa en el aprendizaje automático después de que hayamos terminado con el aprendizaje profundo?

¿Dónde puedo encontrar un buen tutorial para la red neuronal de convolución regional?

Cómo aprender los conceptos básicos del aprendizaje automático dentro de una semana para una entrevista de trabajo

¿Qué es un giroscopio? ¿Como funciona?

¿Existe una definición matemática para una máquina de vectores de soporte?

¿Qué son las redes neuronales profundas?

Inferencia bayesiana: si tuviera que trazar un millar de correos electrónicos basados ​​en "spaminess" utilizando un algoritmo simple de Naive Bayes para establecer la probabilidad de "spaminess" para el eje x, ¿cuál debería ser mi eje y?

¿Qué es un "conjunto típico" en la estimación de densidad de probabilidad para la inferencia bayesiana?

¿Cómo se calcula el punto de ruptura de un algoritmo de aprendizaje?

Estoy tratando de evaluar el rendimiento del modelo (regresión). En la literatura, algunos usan RMSE y otros usan correlación. ¿Hay alguna diferencia entre ambos enfoques?

¿Es posible cambiar a un doctorado en aprendizaje automático después de un MPhil en econometría?

¿Cuál es la ventaja de combinar la red neuronal convolucional (CNN) y la red neuronal recurrente (RNN)?

¿Cómo se aplica la validación cruzada a la regresión logística? Quiero evaluar la precisión de un modelo de regresión logística en un conjunto de datos.

¿Puedo predecir el precio de las acciones usando el aprendizaje automático en Python?