La tasa de aprendizaje es demasiado grande.
Intenta usar una tasa de aprendizaje menor.
Soy un poco diferente de las otras respuestas: esto no es (al menos no solo) sobreajuste, porque el error del tren aumenta con demasiado entrenamiento. Esto tampoco es una gran variación. La alta varianza (similar al sobreajuste) generalmente proporciona un buen rendimiento en el conjunto de trenes pero un mal rendimiento en el conjunto de prueba.
- ¿Cómo reconocemos a un usuario en particular en un registro de chat de Internet multiusuario largo?
- ¿Por qué la similitud entre palabras generalmente se calcula a través del coseno métrico, no euclidiano?
- ¿Qué libros o recursos de probabilidad y estadística debo consultar antes de sumergirme en Machine Learning, PNL, minería de datos, etc.? Soy un completo principiante.
- ¿Qué debo usar para el aprendizaje automático si necesito una solución rápida: Python, R o SAS?
- ¿Qué tipo de programas de back-end ejecuta YouTube, como el aprendizaje automático y otros programas funcionales?
Soluciones posibles:
1, verifique la tasa de aprendizaje. Tal vez se utilizó una tasa de aprendizaje demasiado alta. Intenta usar una tasa de aprendizaje menor . (La figura de color a continuación proviene de redes neuronales convolucionales CS231n para reconocimiento visual)
Esta figura a continuación acabo de garabatear. Cuando la tasa de aprendizaje es demasiado alta (como si estuviera caminando con una zancada súper amplia), los mínimos se “saltaron” y luego el sistema se desvía.
2, aplique la detención temprana , si la pérdida de 7 (que se muestra en los mínimos en su curva de pérdida) es aceptable para su necesidad, entonces no tiene que hacer nada más. Solo temprano parando.
3, si es posible en su sistema, rastree el parámetro L2 reg durante el entrenamiento, rastree el número de neutrones activados durante el entrenamiento. Dado que el error de entrenamiento aumenta, es posible que después de dos entrenamientos con regularización , se suprimieron demasiadas neuronas y se produjo una falta de adaptación (aunque no es posible. Lo más probable es que la tasa de aprendizaje sea demasiado alta). Si es cierto, intente usar una regularización L2 más ligera (disminuya su [matemática] \ lambda [/ matemática] en [matemática] Pérdida_ {L2} = Pérdida + \ lambda \ veces \ theta ^ 2 [/ matemática].)
Nota: L2 reg (que se usó en su sistema) es, en cierta medida, matemáticamente equivalente a la pérdida de peso (consulte Regularizadores – Documentación de Keras – sección “Accesos directos”). La pérdida de peso es más fácil de entender por intuición. La pérdida de peso significa que con más y más épocas de entrenamiento, los pesos se suprimen cada vez más (decaído) y, como resultado, suprimirán las neuronas también con demasiado entrenamiento. Cuando se suprime la mayoría de las neuronas, el modelo es tan débil que ocurre un ajuste insuficiente, y tanto la pérdida de entrenamiento como la pérdida de prueba aumentan en su figura.
Espero que pueda ayudar.