La idea de la normalización por lotes es tener las mismas distribuciones a lo largo del tiempo para facilitar la capacitación. Por lo tanto, BN reduce la fuerte dependencia de la inicialización. Sin embargo, aún obtiene algún beneficio al inicializar los pesos correctamente.
La inicialización de Xavier fue propuesta por primera vez por [1], que asume la función de activación lineal. [2] extiende la inicialización de Xavier para la popular función de activación ReLU utilizada, que funciona bien, y esta es una de las estrategias de inicialización más avanzadas.
[1] Glorot, Xavier y Yoshua Bengio. “Comprender la dificultad de entrenar redes neuronales de alimentación profunda”. Aistats. Vol. 9. 2010.
- ¿Qué papel juegan las redes neuronales y el aprendizaje automático en la atención médica?
- ¿Cuál es el papel de la informática en el aprendizaje automático?
- ¿Cuál es la relación de la matriz de curvatura y el aprendizaje profundo?
- ¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?
- ¿Qué computadora necesito para trabajar en aprendizaje profundo y redes neuronales?
[2] Él, Kaiming, et al. “Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de imagenet”. Actas de la Conferencia Internacional de IEEE sobre Visión por Computadora. 2015