¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?

Asumiré que está utilizando el optimizador de descenso de gradiente.

Una razón para usar el descenso de gradiente de mini lote en lugar del descenso de gradiente de lote es que el mini lote tiene los efectos de regularización en el modelo. Estos efectos de regularización provienen del hecho de que cuando usa mini-lote en lugar del ejemplo de entrenamiento completo, tendrá un ruido adicional en su estimación de gradiente. Este ruido proviene de la diferencia entre el gradiente estimado del descenso del gradiente de mini lotes y el descenso del gradiente de lotes. Esta estimación ruidosa podría ayudar a su modelo a evitar el sesgo debido a la memorización del conjunto de entrenamiento y una mejor generalización.

Ahora, si elige un tamaño de lote grande, el ruido se volverá más pequeño ya que los gradientes estimados en el descenso de gradiente de mini lote se acercarán a los gradientes estimados en el descenso de gradiente de lote. Esto dará como resultado una precisión de entrenamiento ligeramente mejor, pero perderá el efecto de regularización y obtendrá una generalización peor, de ahí la menor validación o precisión de la prueba.

More Interesting

En TensorFlow, ¿qué es una capa 'densa' y una 'abandonada'?

En términos simples, ¿cómo funciona Gibbs Sampling?

¿Cómo se aplica el aprendizaje profundo en el reconocimiento de imágenes?

¿Debo usar bibliotecas de python como Scikit-learn para ML que tienen algoritmos estándar implementados (considerando que soy un novato en el aprendizaje automático)?

¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?

¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

Cómo implementar una capa de deconvolución con los mismos valores de peso de la capa de convolución anterior para una red neuronal convolucional

Cómo calcular el gradiente W en una red neuronal

¿Cómo le enseñas a un robot que ha cometido un error?

¿Cuáles son las diferencias entre GRU y RNN estándar?

¿Por qué elegiría algoritmos de selección de características sobre la reducción dimensional?

¿Puede proporcionar las tareas que se le han asignado mientras buscaba una maestría en el campo CS?

¿Qué áreas específicas de las matemáticas son útiles en neurociencia?

Cómo encontrar el siguiente número de la lista de números anteriores usando el aprendizaje profundo

¿Qué es un sistema o algoritmo de recomendación que dice 'Dado que consumiste X {a} veces, Y {b} veces y Z {c} veces, ¿cuál de {X, Y, Z} debería recomendarte que consumas a continuación'?