Dada una serie de datos de tiempo para la construcción de modelos, ¿cómo divido el conjunto de datos en muestras de capacitación y validación?

A menos que esté centrado completamente en modelos autorregresivos (que pueden usar la validación cruzada de forma bastante natural), y sugiero que, a menos que tenga fuertes razones para hacerlo, la mejor manera de dividir un conjunto de datos que tenga autocorrelación temporal y que desee validar modelos en se divide por tiempo. Hay algunos casos en los que puedo pensar en mi trabajo en los que lo he hecho de manera ligeramente diferente, pero fueron casos muy especiales.

Si los datos se ven afectados por la estacionalidad, generalmente desea elegir no el último porcentaje de puntos, sino la última ventana de tiempo relevante. Entonces, por ejemplo, para datos de ventas, serían los doce meses disponibles para usted. Esto tiene que adaptarse si tiene menos de tres años de datos. (Especialmente para los datos de ventas, pero esta es una buena regla general para los datos anuales).

Avíseme por comentario si desea obtener más ejemplos.

Análisis de datosAprendizaje automáticoCiencia de datosestadísticasseries temporales

Related Content

¿Qué aplicaciones se utilizan para la codificación TensorFlow?

¿Cuántos datos se producen diariamente y cómo se obtuvo esa cifra?

¿Cuáles son algunos buenos indicadores para ideas de proyectos en biología computacional?

¿Cuál es el mejor lenguaje de programación para el aprendizaje automático? ¿Qué idioma es mejor para programar microcontroladores y otras partes de hardware?

¿Cuál es la relación de la función objetivo de muestreo negativo con la función objetivo original en word2vec?

¿Cómo recupero datos de un disco duro dañado?

¿Cuáles son los principales niveles de clasificación de reclusos?

También puede realizar pruebas de avance. Entrene el modelo en los meses 1–8, valide en el mes 9. Luego entrene en los meses 2–9, y luego pruebe en el mes 10, etc.

Rob Hyndman es siempre una buena fuente para series de tiempo.

Validación cruzada para series de tiempo

Manfred Tijerino

Puede entrenar su modelo con sus datos históricos y probarlo con las entradas más nuevas.

Si es para fines de aprendizaje, podría entrenar el 80% de los datos y probar el otro 20% restante. (En realidad, podría jugar un poco con el conjunto de datos con diferentes combinaciones 60/40 o 30/70 para analizar los diferentes resultados o la precisión de su modelo)

Justin Rising

Digamos que tiene 5 ciclos de datos, modele en 4 ciclos y pronostique para el próximo ciclo. Puede validar el modelo de esa manera.

Manfred Tijerino

More Interesting

¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?

¿Cuál es la tecnología detrás de la aplicación Summly recién adquirida por Yahoo?

Visión por computadora: ¿Cuáles son los problemas abiertos para la recuperación de imágenes?

Cómo especificar si quiero ejecutar una función de paquete Caret para clasificación o regresión

¿Por qué podría mejorarse el arrepentimiento del bandido lineal mediante una proyección aleatoria?

¿Cuál es una buena secuencia de autoaprendizaje para el aprendizaje automático?

¿Se ha realizado algún trabajo para hacer que la regresión lineal sea amigable para el laico?

¿Cuál es la relación entre el modelo Log Linear, el modelo MaxEnt y la regresión logística?

¿Qué son los vectores de características basados en cuadros (como se usan en el reconocimiento de voz)?

¿Cuál es el número mínimo de árboles que debo usar en un bosque aleatorio?

¿Tiene Microsoft una mejor tecnología de aprendizaje automático y aprendizaje profundo que Google?

¿Cuándo debo usar un autoencoder frente a un RBM?

Estamos viendo el comienzo de las máquinas que pueden codificar. ¿Aprender un lenguaje de programación aún sería útil en la carrera de ML?

¿Cuál es el propósito de AdaGrad para la formación decente de la red neuronal de gradiente estocástico?

¿Qué redes neuronales se han diseñado para leer los labios?

Web Analytics