Digamos que tiene un objetivo que alcanzar, que es más fácil, ¿un objetivo fijo frente a un objetivo que sigue avanzando? Está claro que un objetivo estático es mucho más fácil de alcanzar que un objetivo dinámico.
Cada capa en una red neuronal tiene un objetivo simple, modelar la entrada de la capa debajo de ella, por lo que cada capa intenta adaptarse a su entrada, pero para las capas ocultas, las cosas se complican un poco. La distribución estadística de la entrada cambia después de unas pocas iteraciones, por lo que si la distribución estadística de la entrada sigue cambiando, llamada desplazamiento covariable interno, las capas ocultas seguirán intentando adaptarse a esa nueva distribución, lo que ralentizará la convergencia. Es como un objetivo que sigue cambiando por capas ocultas.
Por lo tanto, el algoritmo de normalización por lotes (BN) intenta normalizar las entradas a cada capa oculta para que su distribución sea bastante constante a medida que avanza el entrenamiento. Esto mejora la convergencia de la red neuronal. Mirando tu comentario:
- ¿Qué aplicaciones se pueden construir con TensorFlow en el futuro?
- ¿Cuál es la diferencia y similitud de la inteligencia artificial con IR?
- ¿Por qué debería estar entusiasmado con los bots y chatbots y cuáles son algunos casos de uso fáciles de entender?
- ¿Se puede construir un dispositivo que sienta y comprenda el significado sin usar componentes biológicos? Si es así, ¿por dónde empezarías?
- ¿Puede un robot AI reemplazar a un abogado en la corte?
Creo que es porque cuando los datos fluyen a través de las partes no lineales, se saturan a medida que los parámetros de las capas anteriores cambian y causan la desaparición del gradiente.
La normalización también hace que las neuronas trabajen en las regiones lineales de sus funciones de activación mejorando aún más el rendimiento de aprendizaje y reconocimiento. Sí, BN evita el problema de gradiente de fuga, por lo que sigmoid y tanh se pueden usar sin muchos problemas.
Espero que esto ayude.