¿La normalización de lotes hará la diferencia al entrenar con tamaño de lote = 1?

El tema central de la normalización por lotes [1] es el blanqueamiento de la salida de capas ocultas, donde el blanqueamiento significa: media cero, varianza unitaria y descorrelación. Aunque, el papel ignoró la decorrelación por simplicidad.

Considerando el tamaño del lote como 1, no hay significado de varianza o descorrelación.

Por lo tanto, debe tomar un tamaño de lote mínimo de 2 para la normalización del lote.

Recientemente [2], se utiliza una variante novedosa de normalización de lotes basada en un promedio de funcionamiento sobre mini lotes recientes para mayor robustez, especialmente cuando se entrena con mini lotes muy pequeños. Con un poco más de ajuste, esta variante puede usarse con un tamaño de lote = 1.

[1] La respuesta de Debiprasad Ghosh a ¿Por qué ayuda la normalización por lotes?

[2] http://arxiv.org/pdf/1605.08803v…

Related Content

Hay muchas distribuciones de probabilidad presentes en las estadísticas, ¿cómo debería uno usarlas? En general, veo personas que usan distribución gaussiana en algoritmos de aprendizaje automático.

¿Cuáles son algunos buenos libros para principiantes y avanzados sobre redes neuronales e inteligencia artificial?

La minería de datos es una versión más fuerte de ajuste de curvas, ¿es correcta?

¿Qué intentos hay para crear redes neuronales más similares al cerebro biológico?

¿Puede una red neuronal convolucional tener pesos negativos?

¿Por qué decimos que las redes neuronales simples no pueden manejar la entrada de longitud variable?

¿Cuáles son los 50 mejores sitios web interesantes y útiles?

More Interesting

¿Es el "grado de libertad" en el aprendizaje automático igual al número de variables independientes o el número de parámetros?

¿Cuál es la mejor extracción de características de un conjunto de datos de imágenes?

¿Cómo debo elegir una función de activación adecuada para la red neuronal?

¿Cuál es la diferencia entre 'Inferencia' y 'Estimación del modelo' en los documentos de LA?

¿Existe un modelo más efectivo que Word2vec desde 2013?

¿Qué tan poderoso es la PNL?

¿Qué prueba estadística usar para cuantificar la similitud entre dos distribuciones cuando no son normales?

¿Qué elementos de los sistemas operativos generales de una organización deben ser compatibles y reforzarse mutuamente?

¿Las empresas de reconocimiento de imágenes / servicios API utilizan solo modelos neuronales profundos y nada más?

¿Existe algún conjunto de datos disponible públicamente para la clasificación étnica / nacionalidad de los nombres humanos?

¿Vale la pena seguir una maestría en aprendizaje automático de NCSU? ¿Es una mejor opción solo por el triángulo de investigación?

¿Cuál es la pérdida latente en autoencoders variacionales?

¿Qué otros algoritmos de aprendizaje automático, además del aprendizaje profundo, se aplican ampliamente en aplicaciones comerciales?

En LSTM, ¿cómo calculas qué tamaño deben tener los pesos?

¿En qué se diferencia una empresa financiera cuantitativa de un fondo de cobertura típico?

Web Analytics