Mientras entrena una red profunda, una vez que la precisión del entrenamiento alcanza el 100%, ¿hay algún punto en entrenar la red durante más épocas?

Esta es mi primera reacción intestinal sin preocuparme por su 100% o no. El entrenamiento excesivo puede conducir a un sobreajuste que, por definición, es que el error del tren no refleja el error de la prueba. Por lo general, lo que se hace es una técnica llamada parada temprana y que generalmente evita el sobreajuste. La regularización también se usa con frecuencia (a través de l1, l2, abandono, norma de lote, etc.).

Si su modelo tiene un 100% de entrenamiento acc, eso generalmente significa que el gradiente no cambiará el modelo ya que está en la pérdida más baja posible (ya que está optimizando el error del tren), por lo que probablemente significa que más épocas no cambiarán su modelo en de una manera significativa

Sin embargo, dado que el entrenamiento de NN es un problema no convexo si no tenía una tasa de descomposición que fuera sensata para comenzar, podría saltar a un mínimo (local) totalmente diferente (pero en este caso probablemente sea un mínimo global ya que dijo que el error es el más bajo, 0 o 100% acc). Esto podría ser bueno o podría ser malo (dependiendo de si el punto mínimo / crítico alternativo tiene un error de prueba más bajo), pero para responder a su pregunta, podría significar que más épocas realmente hacen algo.

Solo trataría de comenzar para detener el entrenamiento una vez que el error de validación comience a aumentar y ver desde allí qué hacer. Intenta esto varias veces. Si sus errores de prueba y entrenamiento están muy lejos el uno del otro, generalmente es un signo de sobreajuste.

A mi entender, con los enfoques tradicionales de descenso de gradiente para el entrenamiento, no tiene sentido, porque el gradiente desaparece. Si su clasificación de salida es cercana al ideal, ¿cómo va a propagar los ajustes de peso?

Depende un poco de la función de pérdida y de cómo mida la precisión, pero incluso si no desaparece por completo, se vuelve muy plano.

Una excepción a esto podría ser trucos como el abandono, si todavía está modificando la red de alguna manera

Si bien puede parecer contrario a la intuición, las capacidades de generalización de la red pueden, de hecho, mejorar incluso si continúa entrenando la red después del 100% de precisión de entrenamiento.

No voy a abordar el problema del sobreajuste, porque se ha abordado en las otras respuestas; Me centraré en el caso en el que el entrenamiento después del 100% de precisión ayuda, lo que otros respondedores han pasado por alto.

Una de las funciones de pérdida más utilizadas en el aprendizaje profundo es la pérdida de entropía cruzada, que usaré para ejemplificar la afirmación anterior. Considere un problema de clasificación binaria simple con las etiquetas 0 y 1, y digamos que la red asigna un punto de entrenamiento con la etiqueta verdadera 0 probabilidades de salida [0.7, 0.3]. Por lo tanto, el error de entrenamiento con respecto a este punto es 0, porque la etiqueta pronosticada es 0. Sin embargo, el “margen” aumenta si continúa entrenando más y las nuevas probabilidades de salida se convierten en [0.95, 0.05]. Por lo tanto, si bien la precisión del entrenamiento sigue siendo la misma, ahora está haciendo predicciones con mayor confianza.

Habiendo dicho eso, debo concluir con lo siguiente: mientras que en teoría su generalización puede mejorar aún más en el entrenamiento después del 100% de precisión de entrenamiento, en la práctica, casi siempre está sobreajustando para cuando alcanza el 100% de precisión de entrenamiento, y el entrenamiento adicional es Es poco probable que ayude.

No. De hecho, esto puede empeorar las cosas. Está sobreentrenando la red, lo que conduce a un sobreajuste. El sobreajuste conducirá a que la red haga malas predicciones. La única razón por la que puedo pensar en dónde desearía hacer esto es si tiene más datos en los que no ha entrenado la red y espera que los nuevos ciclos de capacitación le enseñen a la red algo que aún no ha aprendido. .