Teóricamente, probablemente sea la tasa de aprendizaje o la capacidad del modelo. Pero en la realidad; casi cualquier cosa. Quizás un error en tu código. Quizás su muestreo de datos no sea aleatorio. Quizás los datos no estén alineados con las etiquetas correctamente. Quizás los gradientes no se actualizan correctamente.
La capacidad del modelo se refiere a la complejidad de la función que se puede modelar con la red neuronal. No conozco ninguna medida cuantitativa de esto, pero es un factor importante a considerar. ¿Puede su modelo aprender NUNCA lo que quiere?
Para ver los efectos de las malas tasas de aprendizaje, debe consultar CS231n Redes neuronales convolucionales para el reconocimiento visual, la sección llamada ” Cuidado del proceso de aprendizaje “.
- ¿Cuáles son los mejores métodos para recopilar datos de entrenamiento para el algoritmo Naive Bayes?
- Cómo calcular gradientes en una red neuronal de avance utilizando matrices
- ¿Cuál es la diferencia entre diferentes tamaños de kernel convolucional como 3 × 3 y 5 × 5? ¿Existe alguna teoría al respecto?
- Cómo entrenar a una CNN con datos insuficientes y no tan buenos
- ¿Es posible el aprendizaje automático acelerado por GPU utilizando un controlador de gráficos de software libre?
Básicamente, una tasa de aprendizaje realmente alta significa que la pérdida aumentará, una tasa de aprendizaje un poco alta (que podría ser lo que estás viendo) simplemente convergerá muy rápidamente a un mínimo local pobre.
En general, las personas harán un horario de tasa de aprendizaje porque al principio quieres una tasa de aprendizaje más alta, pero más tarde, quieres una más pequeña.