¿La normalización por lotes ha vuelto obsoleta la inicialización de Xavier al entrenar redes neuronales?

La idea de la normalización por lotes es tener las mismas distribuciones a lo largo del tiempo para facilitar la capacitación. Por lo tanto, BN reduce la fuerte dependencia de la inicialización. Sin embargo, aún obtiene algún beneficio al inicializar los pesos correctamente.

La inicialización de Xavier fue propuesta por primera vez por [1], que asume la función de activación lineal. [2] extiende la inicialización de Xavier para la popular función de activación ReLU utilizada, que funciona bien, y esta es una de las estrategias de inicialización más avanzadas.

[1] Glorot, Xavier y Yoshua Bengio. “Comprender la dificultad de entrenar redes neuronales de alimentación profunda”. Aistats. Vol. 9. 2010.

[2] Él, Kaiming, et al. “Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de imagenet”. Actas de la Conferencia Internacional de IEEE sobre Visión por Computadora. 2015

No estoy completamente seguro, pero creo que la razón es que se aplicó la inicialización de Xavier o cualquier tipo de inicialización de pesos para que las neuronas de cualquier capa permanezcan en su región lineal de activación.

Con la normalización por lotes asegurándose de que la entrada esté perfectamente normalizada, es casi seguro que las neuronas no se saturarán innecesariamente y, por lo tanto, la inicialización de los pesos puede no tener tanta importancia.