Dada una serie de datos de tiempo para la construcción de modelos, ¿cómo divido el conjunto de datos en muestras de capacitación y validación?

A menos que esté centrado completamente en modelos autorregresivos (que pueden usar la validación cruzada de forma bastante natural), y sugiero que, a menos que tenga fuertes razones para hacerlo, la mejor manera de dividir un conjunto de datos que tenga autocorrelación temporal y que desee validar modelos en se divide por tiempo. Hay algunos casos en los que puedo pensar en mi trabajo en los que lo he hecho de manera ligeramente diferente, pero fueron casos muy especiales.

Si los datos se ven afectados por la estacionalidad, generalmente desea elegir no el último porcentaje de puntos, sino la última ventana de tiempo relevante. Entonces, por ejemplo, para datos de ventas, serían los doce meses disponibles para usted. Esto tiene que adaptarse si tiene menos de tres años de datos. (Especialmente para los datos de ventas, pero esta es una buena regla general para los datos anuales).

Avíseme por comentario si desea obtener más ejemplos.

También puede realizar pruebas de avance. Entrene el modelo en los meses 1–8, valide en el mes 9. Luego entrene en los meses 2–9, y luego pruebe en el mes 10, etc.

Rob Hyndman es siempre una buena fuente para series de tiempo.

Validación cruzada para series de tiempo

Puede entrenar su modelo con sus datos históricos y probarlo con las entradas más nuevas.

Si es para fines de aprendizaje, podría entrenar el 80% de los datos y probar el otro 20% restante. (En realidad, podría jugar un poco con el conjunto de datos con diferentes combinaciones 60/40 o 30/70 para analizar los diferentes resultados o la precisión de su modelo)

Digamos que tiene 5 ciclos de datos, modele en 4 ciclos y pronostique para el próximo ciclo. Puede validar el modelo de esa manera.