¿Por qué la precisión del entrenamiento de la red CNN aumenta rápidamente cuando elijo un tamaño de lote relativamente más pequeño?

El tamaño del lote afecta tanto el tiempo de entrenamiento como el ruido de los pasos del gradiente. Cuando utiliza un tamaño de lote grande, puede entrenar la red más rápido (menos descensos de gradiente), pero puede haber más ruido en el gradiente. Por el contrario, el uso de lotes pequeños utilizará mejor los datos, pero llevará más tiempo ejecutarlos, ya que hará más descensos de gradiente.

Entonces, su precisión es mejor porque está haciendo descensos más pequeños y precisos, pero supongo que su tiempo de entrenamiento también aumentó. Esta es una compensación con la que tiene que trabajar cuando entrena redes neirales.

Tenga en cuenta que usar un tamaño de lote demasiado pequeño también puede afectar negativamente a su modelo. Si el lote de datos no es una buena representación del conjunto de datos en su conjunto, no obtendrá resultados óptimos. Tienes que trabajar para encontrar el valor correcto que equilibre el tiempo de entrenamiento (si eso es importante para ti) y la efectividad del gradiente decente.

More Interesting

¿Es posible crear un filtro adaptativo usando una red neuronal para que después del entrenamiento pueda filtrar la señal ruidosa y dar la salida deseada?

Como todos están aprendiendo el aprendizaje automático y el aprendizaje profundo ahora, ¿debería adoptar un enfoque diferente para centrarme en un área específica, como la programación de gráficos o una más general, como el desarrollo de backend?

¿Qué es el mecanismo de atención en redes neuronales?

¿Es mejor utilizar algoritmos basados ​​en reglas o de aprendizaje automático para la clasificación en un dominio de respuesta a preguntas cerrado?

¿Cuál es la mejor manera de normalizar los datos implícitos para un sistema de recomendación de música mediante el filtrado colaborativo?

¿Existe un sistema de IA más eficiente que el Watson de IBM?

¿Cuál es la diferencia entre un clasificador Naive Bayes y AODE?

¿Cómo se usan las estadísticas en Machine Learning?

¿Cuáles son algunas buenas ideas de proyectos en el área de análisis / predicción del mercado de valores utilizando Bayes ingenuo?

¿Cómo se diseñan y desarrollan las nuevas arquitecturas de aprendizaje profundo?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

¿Cuál es el mejor enfoque híbrido para construir un sistema de recomendación para datos de música?

¿Dónde empiezo a aprender Machine Learning?

¿Cuál es la diferencia entre regresión logística y factorización matricial?

¿Cuál es el atractivo de Python para ML y aplicaciones científicas en general?