La dirección tomada en un solo paso de gradiente durante el entrenamiento no siempre es la más precisa, no dará como resultado que el error general disminuya gradualmente debido a los mini lotes utilizados para estimar esos gradientes en el descenso de gradiente estocástico (SGD) y otras variantes. Si el sistema usara el conjunto de entrenamiento completo para evaluar pasos de gradiente más precisos, entonces observaría una caída más gradual / suave en las tasas de error generales.
La segunda razón es que el conjunto de validación no es exactamente el mismo que el conjunto de entrenamiento. La optimización utiliza las muestras de lote de entrenamiento para determinar los pasos del gradiente y el error de validación se evalúa en el conjunto de validación, que se desacopla del conjunto de entrenamiento, por lo que espera fluctuaciones ruidosas en el error de validación porque cada paso de gradiente no puede garantizar que el error de validación siempre reducir.
Espero que esto ayude.
- ¿Dónde puedo encontrar a alguien que me enseñe 1 a 1 sobre el aprendizaje automático?
- Cómo leer los datos de un directorio en Tensorflow
- ¿Cuáles son los temas candentes del aprendizaje profundo para el análisis de imágenes médicas en 2017?
- ¿Qué es la precisión?
- Cómo aumentar la precisión utilizando redes neuronales convolucionales (CNN / ConvNets) para la regresión