El tema central de la normalización por lotes [1] es el blanqueamiento de la salida de capas ocultas, donde el blanqueamiento significa: media cero, varianza unitaria y descorrelación. Aunque, el papel ignoró la decorrelación por simplicidad.
Considerando el tamaño del lote como 1, no hay significado de varianza o descorrelación.
Por lo tanto, debe tomar un tamaño de lote mínimo de 2 para la normalización del lote.
- Cómo construir una PC para juegos y para aprendizaje profundo
- ¿Se puede usar la detección de características / descripción de características para la clasificación de imágenes con redes neuronales artificiales?
- ¿Puedo crear un programa de aprendizaje automático en otro idioma que no sea un flujo de tensor o scikit-learn?
- Cómo explicar las diferencias entre IBM Watson y Google DeepMind a personas no técnicas
- ¿Qué método de aprendizaje automático es adecuado para aprender una estrategia comercial no explícita?
Recientemente [2], se utiliza una variante novedosa de normalización de lotes basada en un promedio de funcionamiento sobre mini lotes recientes para mayor robustez, especialmente cuando se entrena con mini lotes muy pequeños. Con un poco más de ajuste, esta variante puede usarse con un tamaño de lote = 1.
[1] La respuesta de Debiprasad Ghosh a ¿Por qué ayuda la normalización por lotes?
[2] http://arxiv.org/pdf/1605.08803v…