¿Puedo usar el aprendizaje automático para pronosticar datos de series temporales para puntos de datos discretos dispersos?

Como dijo Jonathan Tay, puede considerar ARIMAX como una extensión de OLS (no es del todo trivial hacerlo y hay algunas cosas a tener en cuenta al hacerlo).

Contrarrestaría la premisa de la pregunta (bajo el supuesto de que estamos tratando la regresión OLS como una técnica de aprendizaje automático): bajo dicho supuesto, ARIMA y ARIMAX también son técnicas de aprendizaje automático.

El hecho de que sean de naturaleza estadística y tengan supuestos estadísticos no significa que no califican como ML. Si OLS es ML, también lo es la mayoría de las estadísticas. Solo se mira de manera diferente a veces.

Editar: Después de comentar esta respuesta, me di cuenta de que había dejado algo fuera. Mi punto es que si OLS se ve como ML, también debería ARIMA y ARIMAX. La pregunta es si siempre deberían serlo (y la respuesta a menudo es negativa en mi mente), pero esa no es la pregunta bajo investigación.

Los modelos de series temporales suelen ajustarse utilizando mínimos cuadrados ordinarios, que es un algoritmo básico de aprendizaje automático. Todo lo que está haciendo ARIMA y ARMA es generar un conjunto específico de características para el modelo de regresión. Es un cambio relativamente trivial cambiar el regresor de OLS a otra cosa.

Cuantos más parámetros tenga un modelo, más datos necesitará. Un modelo ARMA (p, q) tiene parámetros p + q, mientras que una red neuronal completamente conectada con n entradas, m neuronas en la capa oculta y una salida tiene n * m + m pesos que deben ajustarse. La conclusión es que los métodos de aprendizaje automático tienden a tener más parámetros y, por lo tanto, necesitan más datos, por lo que no serían adecuados para datos de bajo volumen. Puede hacer esta noción más precisa con medidas como AIC y BIC. [1]

Otra consideración es el conocimiento del dominio. Si tiene mucho conocimiento de dominio para decir, un sistema experto o algunas ecuaciones lógicas difusas, eso podría compensar los escasos datos de entrada, de modo que el aprendizaje automático arroje mejores resultados que las estadísticas ordinarias.

[1] http://en.wikipedia.org/wiki/Aka

More Interesting

¿Qué se entiende por agrupamiento jerárquico aglomerativo?

Cómo elegir el mejor kit de desarrollador de sistemas integrados para el proyecto My Image Processing y Machine Learning

¿NVIDIA GTX 1050 Ti 4GB es suficiente para Deep Learning?

¿Cuáles son algunos de los mejores algoritmos de aprendizaje automático, considerando la eficiencia, la facilidad de implementación, etc.?

¿Por qué las celdas LSTM tienen dos puertas de escritura?

Cómo encontrar el siguiente número de la lista de números anteriores usando el aprendizaje profundo

Cómo depurar sus proyectos de ciencia de datos y aprendizaje automático

¿Qué es la regresión de cresta?

El entrenamiento de redes neuronales profundas utilizando la propagación inversa tiene el problema de un gradiente de error que desaparece y que establece un límite sobre cuántas capas se pueden entrenar efectivamente, entonces, ¿por qué no usar un algoritmo genético para entrenar redes profundas, eliminando la propagación de errores?

¿Cuál es el plan de estudios de maestría de Stanford en AI / ML?

Cómo identificar la ubicación de cualquier mensaje de texto usando ML o NLP

¿Qué modelo / algoritmo de ML utilizo?

Aprendizaje automático: Alex Casalboni: ¿Cuál es la mejor herramienta de ML para desenfocar caras (los tres tipos de visión izquierda, derecha y frontal) y placas en las imágenes?

¿Alguien ha encontrado un análisis matemáticamente riguroso de la unidad LSTM?

Después de la selección de características utilizando el método de rankeador, WEKA, el número de atributos en el conjunto de prueba es diferente del conjunto de entrenamiento. ¿Cómo los comparas?