En la mayoría de los entrenamientos de precisión de CNN, ¿por qué la precisión de validación no aumenta suavemente en lugar de con tantas ondas?

La dirección tomada en un solo paso de gradiente durante el entrenamiento no siempre es la más precisa, no dará como resultado que el error general disminuya gradualmente debido a los mini lotes utilizados para estimar esos gradientes en el descenso de gradiente estocástico (SGD) y otras variantes. Si el sistema usara el conjunto de entrenamiento completo para evaluar pasos de gradiente más precisos, entonces observaría una caída más gradual / suave en las tasas de error generales.

La segunda razón es que el conjunto de validación no es exactamente el mismo que el conjunto de entrenamiento. La optimización utiliza las muestras de lote de entrenamiento para determinar los pasos del gradiente y el error de validación se evalúa en el conjunto de validación, que se desacopla del conjunto de entrenamiento, por lo que espera fluctuaciones ruidosas en el error de validación porque cada paso de gradiente no puede garantizar que el error de validación siempre reducir.

Espero que esto ayude.

More Interesting

¿Cuánto cuesta una máquina de crioterapia?

¿Alguien consiguió un trabajo en Machine Learning después de completar un Nanodegree de Machine Learning?

¿Cuáles son algunas razones por las que algunas personas prefieren R y Matlab a Python para el aprendizaje automático?

Cómo encontrar la correlación más fuerte entre los vectores de colores a continuación en MATLAB o Python

¿Cómo se implementa una red neuronal convolucional (CNN) con la estructura de un árbol binario en TensorFlow?

Cómo saber formalmente si una función objetivo es convexa o no convexa

¿Por qué una función del núcleo debe satisfacer la condición de Mercer?

¿Cuál es el mejor lenguaje de programación para un bootcamp de aprendizaje automático?

¿La normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente? Después de calcular los parámetros (pesos), ¿es necesario normalizar los casos de prueba proporcionados por el usuario para la predicción?

¿Qué significa ser modelo pre-entrenado en CNN? ¿Ya están entrenados en esas clases particulares?

¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?

¿Cuáles son las ventajas de aprender el aprendizaje automático desde el punto de vista profesional?

¿Qué algoritmo utiliza AutoDraw de Google para asociar nuestro dibujo con uno existente?

¿Cuál es la mejor manera de implementar un SVM usando Hadoop?

¿Existe algún proyecto de código abierto que implemente algoritmos de aprendizaje profundo que aproveche la enorme potencia informática paralela de la GPU?