Mientras entrena una red profunda, una vez que la precisión del entrenamiento alcanza el 100%, ¿hay algún punto en entrenar la red durante más épocas?

Esta es mi primera reacción intestinal sin preocuparme por su 100% o no. El entrenamiento excesivo puede conducir a un sobreajuste que, por definición, es que el error del tren no refleja el error de la prueba. Por lo general, lo que se hace es una técnica llamada parada temprana y que generalmente evita el sobreajuste. La regularización también se usa con frecuencia (a través de l1, l2, abandono, norma de lote, etc.).

Si su modelo tiene un 100% de entrenamiento acc, eso generalmente significa que el gradiente no cambiará el modelo ya que está en la pérdida más baja posible (ya que está optimizando el error del tren), por lo que probablemente significa que más épocas no cambiarán su modelo en de una manera significativa

Sin embargo, dado que el entrenamiento de NN es un problema no convexo si no tenía una tasa de descomposición que fuera sensata para comenzar, podría saltar a un mínimo (local) totalmente diferente (pero en este caso probablemente sea un mínimo global ya que dijo que el error es el más bajo, 0 o 100% acc). Esto podría ser bueno o podría ser malo (dependiendo de si el punto mínimo / crítico alternativo tiene un error de prueba más bajo), pero para responder a su pregunta, podría significar que más épocas realmente hacen algo.

Solo trataría de comenzar para detener el entrenamiento una vez que el error de validación comience a aumentar y ver desde allí qué hacer. Intenta esto varias veces. Si sus errores de prueba y entrenamiento están muy lejos el uno del otro, generalmente es un signo de sobreajuste.

Aprendizaje automáticoAprendizaje profundoconvolucionalesRedes neuronalesRedes neuronales artificiales

Related Content

Cómo estudiar TensorFlow

¿Puede una red neuronal LSTM aprender a reescribir un código C en C ++ sabiendo que lo entrené con un conjunto de datos equivalente a la instrucción C / C ++?

¿Cuáles son algunos buenos indicadores para ideas de proyectos en biología computacional?

¿Cuál sería un ejemplo de una función simple no convexa?

¿Son los modelos de aprendizaje profundo / redes neuronales siempre superiores en las tareas de PNL?

¿En qué se diferencia Electonics e Ingeniería Informática de Ciencias de la Computación e Ingeniería en VIT Chennai?

¿Por qué usamos convolución en redes neuronales?

A mi entender, con los enfoques tradicionales de descenso de gradiente para el entrenamiento, no tiene sentido, porque el gradiente desaparece. Si su clasificación de salida es cercana al ideal, ¿cómo va a propagar los ajustes de peso?

Depende un poco de la función de pérdida y de cómo mida la precisión, pero incluso si no desaparece por completo, se vuelve muy plano.

Una excepción a esto podría ser trucos como el abandono, si todavía está modificando la red de alguna manera

Nathaniel Le Sage

Si bien puede parecer contrario a la intuición, las capacidades de generalización de la red pueden, de hecho, mejorar incluso si continúa entrenando la red después del 100% de precisión de entrenamiento.

No voy a abordar el problema del sobreajuste, porque se ha abordado en las otras respuestas; Me centraré en el caso en el que el entrenamiento después del 100% de precisión ayuda, lo que otros respondedores han pasado por alto.

Una de las funciones de pérdida más utilizadas en el aprendizaje profundo es la pérdida de entropía cruzada, que usaré para ejemplificar la afirmación anterior. Considere un problema de clasificación binaria simple con las etiquetas 0 y 1, y digamos que la red asigna un punto de entrenamiento con la etiqueta verdadera 0 probabilidades de salida [0.7, 0.3]. Por lo tanto, el error de entrenamiento con respecto a este punto es 0, porque la etiqueta pronosticada es 0. Sin embargo, el “margen” aumenta si continúa entrenando más y las nuevas probabilidades de salida se convierten en [0.95, 0.05]. Por lo tanto, si bien la precisión del entrenamiento sigue siendo la misma, ahora está haciendo predicciones con mayor confianza.

Habiendo dicho eso, debo concluir con lo siguiente: mientras que en teoría su generalización puede mejorar aún más en el entrenamiento después del 100% de precisión de entrenamiento, en la práctica, casi siempre está sobreajustando para cuando alcanza el 100% de precisión de entrenamiento, y el entrenamiento adicional es Es poco probable que ayude.

Nathaniel Le Sage

No. De hecho, esto puede empeorar las cosas. Está sobreentrenando la red, lo que conduce a un sobreajuste. El sobreajuste conducirá a que la red haga malas predicciones. La única razón por la que puedo pensar en dónde desearía hacer esto es si tiene más datos en los que no ha entrenado la red y espera que los nuevos ciclos de capacitación le enseñen a la red algo que aún no ha aprendido. .

Prasoon Goyal

More Interesting

¿Qué aspecto de los algoritmos de las redes de aprendizaje profundo requieren GPU además de, o en lugar de, CPU, y por qué?

¿Qué es el aprendizaje profundo en los puntos de vista sociológicos?

¿Qué consejo le darías a un principiante para aprender el aprendizaje automático solo?

Cómo aprender a convertirse en un experto en aprendizaje profundo

Visión por computadora: ¿Cuáles son los problemas abiertos para la recuperación de imágenes?

¿Qué estrategia usaste para resolver el juego 2048? ¿Por qué?

¿Cómo obtienen las startups de aprendizaje automático los usuarios iniciales?

En los modelos gráficos, ¿cuál es la diferencia entre un gráfico de clúster y un gráfico de factores?

¿Qué significa el espacio de hipótesis en Machine Learning?

¿Qué tipo de aprendizaje automático debería usar Tinder para mejorar su número de coincidencias?