Uno. Millón. Series de tiempo.
Santo cielo.
Esas son muchas series de tiempo.
- ¿Cómo gana y retiene DeepMind los datos que necesita para el aprendizaje automático mientras garantiza la privacidad del paciente?
- ¿Cuál sería la mejor combinación para transformar un back-end de Ruby on Rails con características de científicos de datos?
- ¿Cuál es el propósito del almacenamiento? ¿Cuáles son las ventajas?
- ¿Cuál sería una buena pila tecnológica para aprender para un ingeniero de datos principiante?
- ¿Cuáles son los casos de uso de big data en el comercio electrónico?
Especialmente porque uno debería realmente agrupar cosas que de alguna manera están relacionadas. Estoy adivinando los datos financieros.
¿Qué implementación de DTW estás usando? Al menos debe usar algo escrito en la versión Cython o Numba, si está usando Python. No estoy seguro si escribirlo en C te hará algún bien.
Sin embargo, para ese número de series de tiempo … DTW es [matemática] O (n ^ 2) [/ matemática] para la implementación estándar … por supuesto, puede usar límites inferiores, observe el trabajo de Keogh. Pero esa es la comparación de 2 series de tiempo.
Para la serie N, digamos toda la longitud n, estamos viendo una matriz de distancia N por N, con la diagonal eliminada, haga N * (N-1) cálculos, que, con N = 1e6 … bueno, eso es casi un billón cálculos Edite esos billones de cálculos que son de orden [matemática] n ^ 2 [/ matemática], si eso no está claro. Eso es un poco loco.
Por cierto, no queremos ver k-means como el algoritmo de agrupamiento para series de tiempo. Puede usar la agrupación particional, pero … bueno, se complica. Básicamente es difícil crear una media de series de tiempo no alineadas de una manera que tenga sentido. Por lo general, se prefiere la jerarquía, pero hay otras formas.