¿La normalización de lotes hará la diferencia al entrenar con tamaño de lote = 1?

El tema central de la normalización por lotes [1] es el blanqueamiento de la salida de capas ocultas, donde el blanqueamiento significa: media cero, varianza unitaria y descorrelación. Aunque, el papel ignoró la decorrelación por simplicidad.

Considerando el tamaño del lote como 1, no hay significado de varianza o descorrelación.

Por lo tanto, debe tomar un tamaño de lote mínimo de 2 para la normalización del lote.

Recientemente [2], se utiliza una variante novedosa de normalización de lotes basada en un promedio de funcionamiento sobre mini lotes recientes para mayor robustez, especialmente cuando se entrena con mini lotes muy pequeños. Con un poco más de ajuste, esta variante puede usarse con un tamaño de lote = 1.

[1] La respuesta de Debiprasad Ghosh a ¿Por qué ayuda la normalización por lotes?

[2] http://arxiv.org/pdf/1605.08803v…