¿Por qué los investigadores de aprendizaje automático no se preocupan por el número efectivo de épocas?

Durante el entrenamiento, el conjunto de datos normalmente se divide en tres grupos, los conjuntos de entrenamiento, validación y prueba en la proporción 65:20:15, por ejemplo. El número de épocas se puede establecer en un valor alto y luego, siempre que el error de validación y entrenamiento continúe disminuyendo, el entrenamiento debe continuar hasta el punto en que el error de validación y entrenamiento comience a desviarse. El entrenamiento debe terminar especialmente cuando la tasa de error de validación comienza a aumentar mientras la tasa de error de entrenamiento continúa disminuyendo, esto es un indicador de sobreajuste.

Por lo tanto, el número real de épocas no es tan significativo en comparación con los indicadores de rendimiento, como las tasas de error de capacitación y validación. Esas dos métricas de rendimiento ayudan a un investigador o ingeniero de ML a determinar cuándo terminar el proceso de aprendizaje, es por eso que las épocas de aprendizaje reales deben establecerse lo más alto posible y terminar el aprendizaje temprano en función de las tasas de error de capacitación y validación.

Espero que esto ayude.

Es mucho más fácil hacer spam en las iteraciones de aprendizaje en un mayor número de épocas, que en un número menor, especialmente cuando se trata de obtener el mejor y más seguro resultado óptimo.

Esto se debe a que, cuando se trata de épocas más pequeñas (y desea que sean más efectivas), necesitará aumentar los niveles de sofisticación en sus ejemplos de entrenamiento, lo que puede resultar en lecturas de salida esporádicas y poco confiables (debido a posibles sesgos y errores) .

Sin embargo, tiene un costo de oportunidad; como mencionó, “la tasa de aprendizaje es realmente baja o la tasa de decadencia es muy grande”. Sin embargo, se puede ver que la seguridad y fiabilidad de la lectura de salida es mejor en el caso de más épocas; estás más seguro con más datos ¿verdad?