¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento? La tecnología cambia la vida futura

¿Alguna vez has observado que la normalización por lotes en realidad ralentiza el entrenamiento?

Probé una red con 2 capas conv y 2 capas completamente conectadas. 2 capas de normas por lotes … el entrenamiento tardó bastante en converger …

Lo que tienes es una red pequeña, 4 capas en total para ser precisos es una red poco profunda. Los efectos de normalización por lotes (BN) son más beneficiosos para las redes neuronales profundas (DNN). Lo que tiene allí es que BN introduce una carga computacional adicional más algunos parámetros adicionales. Así que hay dos factores en juego aquí.

BN introduce una carga adicional que puede ralentizar el tiempo de ejecución.
BN normalmente reduce la cantidad de épocas necesarias para entrenar la red, por lo tanto, puede terminar la capacitación muy temprano, justo después de una pequeña cantidad de épocas. Tampoco está haciendo uso de otros beneficios para acelerar aún más el proceso de aprendizaje.

Entonces es simple saber a dónde va mal.

No está reduciendo el conteo de época ni aprovechando los otros beneficios de BN lo suficiente como para compensar el tiempo adicional que proviene de la carga adicional de BN. Por lo tanto, le aconsejo que aproveche todos los beneficios de BN.

Eliminar otros métodos de regularización.
Aumentar la tasa de aprendizaje para acelerar aún más el aprendizaje.
Reducir el recuento de época, ya que la red alcanza el mínimo justo después de algunas épocas.

De esa manera notará una aceleración debido al uso de BN. Pero tenga en cuenta que los beneficios son más evidentes en los DNN a gran escala, como las redes neuronales residuales (ResNet) con más de 200 capas que las redes más pequeñas y poco profundas.

Espero que esto ayude.

Aprendizaje automáticoAprendizaje profundoRedes neuronales artificiales