¿Por qué la normalización por lotes de las activaciones lineales de una red neuronal no es útil para eliminar el cambio de covariable interno?

Estoy de acuerdo en que la explicación es un poco ondulada. La distribución de activaciones a partir de una transformación no lineal será muy diferente a una distribución gaussiana, por ejemplo, la salida de un sigmoide probablemente tendrá dos o más modos. [Simplemente intente pasar algunas muestras distribuidas gaussianas a través de un ReLU o sigmoide y trace la distribución de salida en MATLAB para verificar esto.]

Dado que un gaussiano está completamente parametrizado solo por su media y varianza, podemos transformar cualquier distribución gaussiana (o una de forma similar a una gaussiana) normalizando su media y varianza a una distribución consistente (por ejemplo, un gaussiano centrado en cero con varianza unitaria). Pero las distribuciones cuya forma es bastante diferente de Gauss (Forma de campana) no se pueden transformar en una unidad Gaussiana simplemente normalizando la media y la varianza (¡es posible que deba normalizar los momentos de tercer o cuarto orden para obtener una distribución consistente en las iteraciones! ]

Por otro lado, la aplicación de cualquier distribución mediante alguna función lineal hace que la forma de la distribución de salida se parezca cada vez más a un gaussiano (hay un nombre para esta propiedad matemática que estudié en Teoría de la información, ¿tal vez el Teorema del límite central?). Por lo tanto, esperan que la normalización funcione mejor en la salida de capas lineales, que son más gaussianas que en otros puntos de la red y, por lo tanto, susceptibles de transformarse en una distribución consistente simplemente manteniendo el momento de primer y segundo orden.

More Interesting

Como principiante, ¿cómo debo estudiar el aprendizaje profundo?

¿Cuál es la diferencia entre bootstrapping y validación cruzada?

¿Hay alguna manera fácil de configurar AWS para el aprendizaje profundo con Tensorflow y Keras?

¿Sigue siendo el curso de aprendizaje automático de Andrew Ng el mejor curso de aprendizaje automático disponible?

¿Cómo puedo comenzar a usar métodos de "generalización apilada" en Python para las competencias de Kaggle?

Si alguien está haciendo una maestría en OMS CS de Georgia Tech, ¿cuál es la mejor especialización en términos de perspectivas (suponiendo el mismo nivel de interés en cada una), bases de datos e ingeniería de software, aprendizaje automático o inteligencia interactiva?

Al diseñar nuevas arquitecturas de aprendizaje profundo, ¿cómo se determina si la arquitectura es mala o si la optimización del modelo es el problema?

¿Necesita ser un buen ingeniero de software para trabajar en cosas como visión por computadora, reconocimiento de voz, gráficos por computadora, aprendizaje automático?

¿Se puede utilizar la investigación en aprendizaje automático para complementar la epistemología?

¿Es el aprendizaje automático el único campo de IA de interés para la academia y la industria?

¿Qué es el aprendizaje profundo para un principiante?

¿Es una variable significativa en un modelo de regresión lineal?

¿Qué puede hacer el aprendizaje automático además de la clasificación? ¿Hay más?

¿Por qué hay tantos enfoques generativos en la clasificación de escenas, mientras que el enfoque discriminatorio es el principal en el reconocimiento / detección de objetos?

¿Qué desafíos interesantes existen para los desarrolladores / programadores que se pueden lograr en unos meses?