¿Qué técnicas son útiles para las series de tiempo financieras de minería de datos?

Este era un tema que me interesaba hace algún tiempo, mientras hacía investigación de ML en la academia (abandoné un programa de doctorado de CS a principios de este año). Después de hablar con personas de la industria de investigación financiera, aprendí que la mayoría de las técnicas en realidad son solo variantes de regresión lineal. Aunque se han intentado varios enfoques novedosos, frustrantemente, no lo hacen mucho mejor que la regresión lineal normal.

Esto me llevó a creer que, en lugar de probar más métodos para analizar los datos de series temporales, podría ser más efectivo intentar combinar las otras fuentes de datos a las que podemos tener acceso. Por ejemplo, se ha realizado una investigación por separado sobre la utilización de métodos de PNL para extraer datos financieros de textos como las noticias de última hora, con el fin de predecir el efecto sobre los movimientos de precios. Un buen ejemplo de esto es AzFinText (http://en.wikipedia.org/wiki/AZF…).

Puede que le resulte mejor tratar de encontrar un método que combine de manera efectiva tales fuentes de datos múltiples y heterogéneas en lugar de buscar un método perfecto para cualquier fuente de datos.

Tuve un artículo sobre tal intento, aunque aplicado a datos genéticos, en NIPS el año pasado:
http://www.umiacs.umd.edu/~hal/d…

¿Usas R? Si es así, entonces el siguiente enlace puede darle una idea de los diversos métodos que podría aplicar.
Vista de tareas de CRAN: análisis de series temporales

Depende de su tarea, la cantidad de datos, los recursos computacionales disponibles y su comprensión de los datos.

Si la interpretación no es importante, tiene muchos datos y acceso a GPU, y / o (el siguiente punto es opcional) no tiene una muy buena comprensión de sus datos, como la estacionalidad, las redes neuronales pueden ser muy útiles. Podría investigar los siguientes tipos de redes:

  • LSTM (y otros sabores de RNN)
  • Redes neuronales convolucionales
  • Combinaciones de ambos, como LSTMS convolucional, redes neuronales cuasi-recurrentes, etc.

De lo contrario, debe buscar técnicas como los modelos Hidden Markov, los modelos ARCH-GARCH, los modelos ARIMA, etc.

More Interesting

¿Cuáles son las debilidades del algoritmo estándar k-means (también conocido como algoritmo de Lloyd)?

¿Qué es el aprendizaje por refuerzo?

¿Qué libros o recursos de probabilidad y estadística debo consultar antes de sumergirme en Machine Learning, PNL, minería de datos, etc.? Soy un completo principiante.

Cómo construir una aplicación de Android orientada al aprendizaje automático

¿Cuándo veremos una base teórica y una base matemática para el aprendizaje profundo?

¿Cuál es el mejor lenguaje de programación para implementar algoritmos de aprendizaje automático?

¿Es cierto que las redes neuronales son más rápidas en las mujeres?

¿Cuáles fueron los algoritmos utilizados para los chatbots antes de que surgiera el aprendizaje profundo?

¿Tiene sentido la regularización (L2, abandono, etc.) alguna vez para datos muy ruidosos, pero también abundantes, como series de tiempo financieras?

¿Es posible usar bibliotecas de aprendizaje automático OpenCV para aplicaciones que no son de visión por computadora?

¿Cuáles son los algoritmos más populares utilizados en redes neuronales convolucionales?

¿Cómo superan los modelos de lenguaje neuronal (NLM) la maldición del problema de dimensionalidad para modelar el lenguaje natural?

¿Cuáles son las desventajas de tener un tamaño de paso constante para el Descenso de gradiente estocástico?

¿Cuáles son los mejores cursos de ciencia de datos en Udemy?

¿Cuál es una forma intuitiva de explicar los resultados de la PCA?