¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?

Asumiré que está utilizando el optimizador de descenso de gradiente.

Una razón para usar el descenso de gradiente de mini lote en lugar del descenso de gradiente de lote es que el mini lote tiene los efectos de regularización en el modelo. Estos efectos de regularización provienen del hecho de que cuando usa mini-lote en lugar del ejemplo de entrenamiento completo, tendrá un ruido adicional en su estimación de gradiente. Este ruido proviene de la diferencia entre el gradiente estimado del descenso del gradiente de mini lotes y el descenso del gradiente de lotes. Esta estimación ruidosa podría ayudar a su modelo a evitar el sesgo debido a la memorización del conjunto de entrenamiento y una mejor generalización.

Ahora, si elige un tamaño de lote grande, el ruido se volverá más pequeño ya que los gradientes estimados en el descenso de gradiente de mini lote se acercarán a los gradientes estimados en el descenso de gradiente de lote. Esto dará como resultado una precisión de entrenamiento ligeramente mejor, pero perderá el efecto de regularización y obtendrá una generalización peor, de ahí la menor validación o precisión de la prueba.

Aprendizaje automáticoAprendizaje profundo

Related Content

¿Cómo funciona la selección de características bayesianas?

¿Qué es mejor para el aprendizaje profundo: TensorFlow o Chainer?

¿Cómo funciona el sistema de recomendación de filtrado basado en contenido por word2vec usando etiquetas?

Soy un ingeniero electrónico que conoce algoritmos de aprendizaje automático, big data, estadísticas, SQL, Matlab. ¿Puedo ser contratado como ingeniero de IA de nivel básico?

¿Tendrán alguna coincidencia los modelos gráficos probabilísticos y el aprendizaje profundo?

¿Por qué el aprendizaje por refuerzo no era popular antes de que el aprendizaje profundo apareciera en escena?

¿La red neuronal convolucional es básicamente un procesamiento previo de datos a través del núcleo más las redes neuronales? ¿Acaso Deep Learning no es solo redes neuronales con preprocesamiento para las selecciones de funciones automatizadas?

More Interesting

En TensorFlow, ¿qué es una capa 'densa' y una 'abandonada'?

En términos simples, ¿cómo funciona Gibbs Sampling?

¿Cómo se aplica el aprendizaje profundo en el reconocimiento de imágenes?

¿Debo usar bibliotecas de python como Scikit-learn para ML que tienen algoritmos estándar implementados (considerando que soy un novato en el aprendizaje automático)?

¿De qué manera las competencias de minería de datos y aprendizaje automático ayudan / restan valor a estos campos académicos y sus aplicaciones comerciales?

¿Qué es una explicación intuitiva de los coeficientes de regresión logística?

Cómo implementar una capa de deconvolución con los mismos valores de peso de la capa de convolución anterior para una red neuronal convolucional

Cómo calcular el gradiente W en una red neuronal

¿Cómo le enseñas a un robot que ha cometido un error?

¿Cuáles son las diferencias entre GRU y RNN estándar?

¿Por qué elegiría algoritmos de selección de características sobre la reducción dimensional?

¿Puede proporcionar las tareas que se le han asignado mientras buscaba una maestría en el campo CS?

¿Qué áreas específicas de las matemáticas son útiles en neurociencia?

Cómo encontrar el siguiente número de la lista de números anteriores usando el aprendizaje profundo

¿Qué es un sistema o algoritmo de recomendación que dice 'Dado que consumiste X {a} veces, Y {b} veces y Z {c} veces, ¿cuál de {X, Y, Z} debería recomendarte que consumas a continuación'?

Web Analytics