Generalmente, el lote más grande que cabe en la memoria gpu, ya que proporciona la utilización de cómputo gpu sin salir de la memoria gpu, lo que lo ralentizaría.
Sin embargo.
El aprendizaje profundo también es notoriamente quisquilloso con los hiperparámetros, y con la introducción de la normalización por lotes, esto se ha convertido en uno de los principales. También está el problema de que los tamaños de lote demasiado grandes causan una degeneración de precisión debido a “mínimos locales agudos” que causan una generalización deficiente (aunque el método de inicialización de Facebook ayuda a aliviar esto). Sin embargo, es muy poco probable que esto sea una preocupación ya que primero se quedará sin memoria gpu. Un problema mayor es la normalización de lotes, si el tamaño de su lote es demasiado pequeño, puede causar problemas con la norma del lote. Recomiendo usar la normalización por lotes, que debería evitar este problema en gran medida.
- ¿Cuál es una explicación intuitiva del método de optimización llamado Hessian-free Optimizer (HF) para redes neuronales?
- ¿Cómo escribe Google las pruebas para su algoritmo de búsqueda para que sepan que no lo rompieron al hacer cambios?
- ¿Por qué la precisión del entrenamiento de la red CNN aumenta rápidamente cuando elijo un tamaño de lote relativamente más pequeño?
- ¿Por qué mi modelo de regresión produce valores negativos para SalePrice en los datos de prueba?
- ¿Por qué Intel Xeon Phi no se usa mucho para acelerar el entrenamiento de aprendizaje profundo?