El tamaño del lote afecta tanto el tiempo de entrenamiento como el ruido de los pasos del gradiente. Cuando utiliza un tamaño de lote grande, puede entrenar la red más rápido (menos descensos de gradiente), pero puede haber más ruido en el gradiente. Por el contrario, el uso de lotes pequeños utilizará mejor los datos, pero llevará más tiempo ejecutarlos, ya que hará más descensos de gradiente.
Entonces, su precisión es mejor porque está haciendo descensos más pequeños y precisos, pero supongo que su tiempo de entrenamiento también aumentó. Esta es una compensación con la que tiene que trabajar cuando entrena redes neirales.
Tenga en cuenta que usar un tamaño de lote demasiado pequeño también puede afectar negativamente a su modelo. Si el lote de datos no es una buena representación del conjunto de datos en su conjunto, no obtendrá resultados óptimos. Tienes que trabajar para encontrar el valor correcto que equilibre el tiempo de entrenamiento (si eso es importante para ti) y la efectividad del gradiente decente.
- ¿Qué algoritmo de recomendaciones es más efectivo para desarrollar un entorno de crowdsourcing y qué lenguaje de programación sugiere?
- Cómo medir qué tan bueno es un modelo generativo
- Cómo migrar modelos de aprendizaje automático que están escritos en diferentes lenguajes de programación
- ¿Por qué la mayoría de las competencias recientes se centran en el aprendizaje profundo / redes neuronales? ¿No crea esto un desequilibrio en los tipos de problemas que se ofrecen?
- En clasificación, ¿cómo manejas un conjunto de entrenamiento desequilibrado?