¿La normalización por lotes ha vuelto obsoleta la inicialización de Xavier al entrenar redes neuronales?

La idea de la normalización por lotes es tener las mismas distribuciones a lo largo del tiempo para facilitar la capacitación. Por lo tanto, BN reduce la fuerte dependencia de la inicialización. Sin embargo, aún obtiene algún beneficio al inicializar los pesos correctamente.

La inicialización de Xavier fue propuesta por primera vez por [1], que asume la función de activación lineal. [2] extiende la inicialización de Xavier para la popular función de activación ReLU utilizada, que funciona bien, y esta es una de las estrategias de inicialización más avanzadas.

[1] Glorot, Xavier y Yoshua Bengio. “Comprender la dificultad de entrenar redes neuronales de alimentación profunda”. Aistats. Vol. 9. 2010.

[2] Él, Kaiming, et al. “Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de imagenet”. Actas de la Conferencia Internacional de IEEE sobre Visión por Computadora. 2015

¿Cuáles son los nuevos modelos de aprendizaje profundo que aparecen en los últimos años?

¿Existe alguna técnica de aprendizaje automático que pueda transferir automáticamente una historia escrita en texto a un libro de dibujos animados?

¿Cómo agrega Quora el aprendizaje automático a su aplicación web?

¿Cómo podemos hacer una buena predicción usando el aprendizaje profundo MXNet R?

¿Cómo se emplea una parada temprana en TensorFlow?

Tengo problemas para mejorar el rendimiento de mi red neuronal a medida que aumento el número de unidades, ¿cuál podría ser el problema?

No estoy completamente seguro, pero creo que la razón es que se aplicó la inicialización de Xavier o cualquier tipo de inicialización de pesos para que las neuronas de cualquier capa permanezcan en su región lineal de activación.

Con la normalización por lotes asegurándose de que la entrada esté perfectamente normalizada, es casi seguro que las neuronas no se saturarán innecesariamente y, por lo tanto, la inicialización de los pesos puede no tener tanta importancia.

Abhishek Shivkumar

More Interesting

Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?

¿Por qué se usan CNN para PNL?

¿Cuáles son algunos ejemplos de empresas no tecnológicas que crean valor a través del uso de Big Data y qué tecnologías específicas están utilizando, por ejemplo, Hadoop, sistemas dedicados, SAP en formas novedosas, piratas informáticos, etc.

Cómo escribir un buen artículo sobre aprendizaje profundo o reforzar el aprendizaje sin la ayuda de un supervisor profesional

Cómo saber qué algoritmo usar y cuándo

¿Cómo se siente la comunidad de aprendizaje automático sobre Kaggle?

¿Cuál es el significado del espacio latente?

¿Debo eliminar las URL cuando hago el preprocesamiento para un análisis de sentimientos de Twitter?

¿Por qué los científicos no definen la inteligencia de tal manera que pueda implementarse artificialmente en un software, como si pudiéramos crear luz artificialmente?

¿Qué es el 'aprendizaje automático de crowdsourcing'?