Cómo combinar un clasificador basado en características con un modelo de serie temporal como ARIMA

Depende de la naturaleza de las características y de cómo se mide el poder predictivo.

Asumiré que las características cambian con el tiempo de alguna manera; de lo contrario, para una sola serie de tiempo (univariada o multivariada), realmente no tienen el poder de discriminar. Para series de tiempo múltiples (diferentes en este caso de una serie multivariada, ya que se supone que las variables múltiples varían junto con el mismo modelo), las características estáticas pueden ayudar de alguna manera (por ejemplo, en la categorización / agrupación / clasificación), pero a partir de la formulación de la pregunta, parece que estamos trabajando en un solo caso univariado / multivariado. En este caso, las características estáticas se pueden agregar como constantes.

Si estamos hablando de características completamente predecibles (en el tiempo), entonces tenemos un indicador de qué semana o mes es, eso realmente debería estimarse estacionalmente en el modelo en primer lugar. Por supuesto, si tiene una estacionalidad de 12 (mensual) y considera que la variable útil es la semana del mes, podría usarse en la primera sugerencia que sigue a este párrafo como una variable indicadora (aunque deberá tener mucho cuidado, ya que la cantidad de semanas por mes varía, y patrones como ese cambian muy rápidamente).

La primera sugerencia real es usar ARIMAX. Esto le permite incorporar características que tienen un efecto en el valor de la serie en un momento dado, pero que no afectan la estructura de su modelo ARIMA. Básicamente, usted ajusta la media de la serie como un modelo de regresión dado el modelo ARIMA. Esa es una descripción aproximada, de todos modos. Tenga en cuenta que si se trata de un ARIMA en lugar de un ARMA (es decir, se requiere diferenciar para hacer que el modelo sea estacionario), la descripción aproximada que proporcioné los cambios en la naturaleza un poco … es mejor asegurarse de que está utilizando un paquete confiable (y base R’s arima () tiene algunas convenciones de nomenclatura interesantes, que, desafortunadamente, creo que mi paquete arfima sigue, creo que lo solucionaré, pero el paquete de pronóstico es más claro) a menos que desee ocuparse de estos detalles usted mismo. En ese caso, ten cuidado.

Si está hablando de otra serie de tiempo que es interdependiente con su serie de tiempo (dudoso de la formulación de la pregunta, pero posible), es posible que desee considerar un modelo de función de transferencia o tratarlo como una serie multivariante.

Si está hablando de eventos que ocurren de manera predecible (o incluso algo impredecible), querrá analizar el análisis de intervención. Si puede predecir los eventos con un buen grado de confianza, sus predicciones mejorarán.

Ahora, he estado tratando todo esto de la manera estándar: la modificación de un modelo de series de tiempo frecuente para permitir factores externos que afectan las series de tiempo de tal manera que puedan incorporarse al modelo. La parte frecuentista está implícita en la pregunta (si bien uno puede tener modelos bayesianos ARIMA, a menudo es más efectivo usar un modelo bayesiano jerárquico, aunque depende de la naturaleza de los datos). La alteración del modelo ARIMA es explícita en la pregunta y depende de lo que desee hacer y la naturaleza exacta de las características y cómo funcionan.

Hay otras maneras de resolver este problema, por ejemplo, redes neuronales, SVR que se han modificado para tener en cuenta la naturaleza temporal, algunos modelos basados ​​en árboles que funcionan con el tiempo. Sin embargo, sin conocer la naturaleza exacta del problema y lo que tenemos disponible, solo puedo indicar las posibilidades.

No está totalmente claro qué está clasificando o cuáles son estas otras características, lo que marcaría una gran diferencia en cómo abordar el problema.

Como menciona JQ Veenstra, ARIMAX parece una buena opción para una interpretación razonable de la pregunta.

Para otras interpretaciones, otros modelos pueden ser más apropiados. El apilamiento de modelos es definitivamente una opción, aunque generalmente prefiero evitar el apilamiento / ensamblaje de modelos con información diferente cuando un solo modelo puede combinar toda la información sin demasiado ajuste.

Un modelo de Markov oculto modificado o un filtro de Kalman podría ser apropiado, aunque es difícil extenderlos para que funcionen con las tendencias y la estacionalidad a largo plazo.

Si agrega más detalles, podría ser más útil.