A menos que esté centrado completamente en modelos autorregresivos (que pueden usar la validación cruzada de forma bastante natural), y sugiero que, a menos que tenga fuertes razones para hacerlo, la mejor manera de dividir un conjunto de datos que tenga autocorrelación temporal y que desee validar modelos en se divide por tiempo. Hay algunos casos en los que puedo pensar en mi trabajo en los que lo he hecho de manera ligeramente diferente, pero fueron casos muy especiales.
Si los datos se ven afectados por la estacionalidad, generalmente desea elegir no el último porcentaje de puntos, sino la última ventana de tiempo relevante. Entonces, por ejemplo, para datos de ventas, serían los doce meses disponibles para usted. Esto tiene que adaptarse si tiene menos de tres años de datos. (Especialmente para los datos de ventas, pero esta es una buena regla general para los datos anuales).
Avíseme por comentario si desea obtener más ejemplos.
- ¿La gran tecnología dominará los datos y el aprendizaje automático?
- Cómo entrenar un modelo de Keras con un gran conjunto de datos y luego ajustarlo con un conjunto de datos más pequeño de interés
- ¿Qué significa que una modelo se sobreajuste?
- ¿Cuál es la posibilidad de hacer una máquina de pensamiento real?
- ¿Implementó algoritmos de aprendizaje automático desde cero con el propósito de aprender?