¿Cuáles son los métodos para la agrupación de datos de series temporales aplicables a grandes conjuntos de datos?

Uno. Millón. Series de tiempo.

Santo cielo.

Esas son muchas series de tiempo.

Especialmente porque uno debería realmente agrupar cosas que de alguna manera están relacionadas. Estoy adivinando los datos financieros.

¿Qué implementación de DTW estás usando? Al menos debe usar algo escrito en la versión Cython o Numba, si está usando Python. No estoy seguro si escribirlo en C te hará algún bien.

Sin embargo, para ese número de series de tiempo … DTW es [matemática] O (n ^ 2) [/ matemática] para la implementación estándar … por supuesto, puede usar límites inferiores, observe el trabajo de Keogh. Pero esa es la comparación de 2 series de tiempo.

Para la serie N, digamos toda la longitud n, estamos viendo una matriz de distancia N por N, con la diagonal eliminada, haga N * (N-1) cálculos, que, con N = 1e6 … bueno, eso es casi un billón cálculos Edite esos billones de cálculos que son de orden [matemática] n ^ 2 [/ matemática], si eso no está claro. Eso es un poco loco.

Por cierto, no queremos ver k-means como el algoritmo de agrupamiento para series de tiempo. Puede usar la agrupación particional, pero … bueno, se complica. Básicamente es difícil crear una media de series de tiempo no alineadas de una manera que tenga sentido. Por lo general, se prefiere la jerarquía, pero hay otras formas.

Probaría la agrupación basada en densidad (DBSCAN). La implementación básica tiene complejidad O (n ^ 2) y está disponible en Python: sklearn.cluster.DBSCAN – documentación de scikit-learn 0.18.1. Se puede implementar con O (n * logn) mediante el uso de una estructura de indexación, que ejecuta la consulta de vecindad en O (logn) (por ejemplo, árbol R * – Wikipedia), consulte DBSCAN – Wikipedia

More Interesting

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático en LinkedIn?

¿Cómo se relaciona el aprendizaje automático con la ciencia de datos?

¿Cómo se debe enfocar el aprendizaje de big data?

¿Qué gráficos de Nvidia, GeForce o Quadro, son los mejores para aplicaciones de análisis de datos grandes, modelado computacional y ciencia de datos?

¿Qué uso como formato de base de datos \ archivo para la canalización de datos de ciencia de datos?

¿Puede uno convertirse en un exitoso arquitecto de Big Data sin aprender Data Science? ¿Cuál es la diferencia entre el arquitecto de Big Data y el científico de datos?

¿Qué tipo de productos construye MAD Street Den?

¿Cuál es la diferencia entre los archivos .zip, .rar, .deb y .tar?

¿Debería / puede una persona con casi 6 años de experiencia en investigación financiera aprender ciencia de datos? ¿Le ayudaría a avanzar en su carrera en investigación?

¿Cómo diferenciaría la ciencia de datos y la inteligencia empresarial?

¿Cuáles son los programas creíbles de capacitación en ciencia de datos que enseñarían habilidades prácticas?

Cómo seleccionar núcleos SVM

¿Qué es la ciencia de datos y el aprendizaje automático? ¿Cuáles son las similitudes y diferencias entre ellos?

Soy un administrador de sistemas de Windows de 36 años en una MNC. ¿Cómo puedo construir una carrera en Data Science?

¿Cómo cambiará el mercado laboral de la ciencia de datos en los próximos diez años?