La normalización por lotes (BN) elimina el llamado cambio covariable interno que afecta la velocidad de convergencia de las redes neuronales a gran escala, como las redes neuronales convolucionales (convNet). BN tiene propiedades interesantes como:
- Induce algunos efectos de regularización, lo que significa que uno puede disminuir el uso de otros métodos de regularización, como los métodos de regularización de abandono, [matemática] L_1 [/ matemática] y [matemática] L_2 [/ matemática].
- Mejora el flujo de gradiente, lo que significa que las funciones de activación saturadas, como las funciones sigmoide o tanh, también se pueden usar en arquitecturas más profundas sin muchos problemas.
- Mejora la velocidad de aprendizaje: las redes convergen más rápido a un mínimo en la superficie de error. El cambio de covariable interno dificulta la adaptación de las capas ocultas porque la distribución de datos proyectada a través de capas anteriores sigue cambiando a medida que esas capas aprenden. Para eliminar ese efecto para que las capas ocultas obtengan una distribución de entrada bastante constante, se aplica BN justo antes de cada capa oculta. De esa forma, las capas ocultas pueden adaptarse rápidamente a una entrada con distribución constante que a una distribución que sigue cambiando.
- Puede usar grandes tasas de aprendizaje: la naturaleza adaptativa de BN permite grandes tasas de aprendizaje iniciales sin que la red supere el punto mínimo en la superficie de error.
Sin embargo, BN introduce algunos parámetros adicionales. Pero normalmente ayuda a las redes neuronales a aprender de manera muy eficiente, por lo que no es un gran problema.
Espero que esto ayude.
- No tengo dinero para comprar una computadora poderosa, ¿cómo puedo aprender en la GPU?
- ¿Cómo puedo usar el modelo oculto de Markov sin supervisión para detectar y corregir palabras dobles?
- ¿Cómo funciona el soporte de regresión vectorial?
- Cómo usar OpenCV en combinación con Scikit-learn
- ¿Cuáles son los temas candentes en el aprendizaje automático y la lógica difusa juntos?