Estoy de acuerdo en que la explicación es un poco ondulada. La distribución de activaciones a partir de una transformación no lineal será muy diferente a una distribución gaussiana, por ejemplo, la salida de un sigmoide probablemente tendrá dos o más modos. [Simplemente intente pasar algunas muestras distribuidas gaussianas a través de un ReLU o sigmoide y trace la distribución de salida en MATLAB para verificar esto.]
Dado que un gaussiano está completamente parametrizado solo por su media y varianza, podemos transformar cualquier distribución gaussiana (o una de forma similar a una gaussiana) normalizando su media y varianza a una distribución consistente (por ejemplo, un gaussiano centrado en cero con varianza unitaria). Pero las distribuciones cuya forma es bastante diferente de Gauss (Forma de campana) no se pueden transformar en una unidad Gaussiana simplemente normalizando la media y la varianza (¡es posible que deba normalizar los momentos de tercer o cuarto orden para obtener una distribución consistente en las iteraciones! ]
Por otro lado, la aplicación de cualquier distribución mediante alguna función lineal hace que la forma de la distribución de salida se parezca cada vez más a un gaussiano (hay un nombre para esta propiedad matemática que estudié en Teoría de la información, ¿tal vez el Teorema del límite central?). Por lo tanto, esperan que la normalización funcione mejor en la salida de capas lineales, que son más gaussianas que en otros puntos de la red y, por lo tanto, susceptibles de transformarse en una distribución consistente simplemente manteniendo el momento de primer y segundo orden.
- ¿Cómo entrenar codificadores automáticos dispersos en imágenes?
- ¿Cuál es la mejor manera de crear un conjunto de redes neuronales?
- ¿DevOps mejora las operaciones de ciencia de datos y aprendizaje automático?
- ¿Qué debe saber un profesional de aprendizaje profundo para un hackathon?
- ¿Cuáles son algunas aplicaciones de muestreo de importancia en Deep Learning?