¿Cuáles son los métodos para la agrupación de datos de series temporales aplicables a grandes conjuntos de datos?

Uno. Millón. Series de tiempo.

Santo cielo.

Esas son muchas series de tiempo.

¿Cómo gana y retiene DeepMind los datos que necesita para el aprendizaje automático mientras garantiza la privacidad del paciente?
¿Cuál sería la mejor combinación para transformar un back-end de Ruby on Rails con características de científicos de datos?
¿Cuál es el propósito del almacenamiento? ¿Cuáles son las ventajas?
¿Cuál sería una buena pila tecnológica para aprender para un ingeniero de datos principiante?
¿Cuáles son los casos de uso de big data en el comercio electrónico?

Especialmente porque uno debería realmente agrupar cosas que de alguna manera están relacionadas. Estoy adivinando los datos financieros.

¿Qué implementación de DTW estás usando? Al menos debe usar algo escrito en la versión Cython o Numba, si está usando Python. No estoy seguro si escribirlo en C te hará algún bien.

Sin embargo, para ese número de series de tiempo … DTW es [matemática] O (n ^ 2) [/ matemática] para la implementación estándar … por supuesto, puede usar límites inferiores, observe el trabajo de Keogh. Pero esa es la comparación de 2 series de tiempo.

Para la serie N, digamos toda la longitud n, estamos viendo una matriz de distancia N por N, con la diagonal eliminada, haga N * (N-1) cálculos, que, con N = 1e6 … bueno, eso es casi un billón cálculos Edite esos billones de cálculos que son de orden [matemática] n ^ 2 [/ matemática], si eso no está claro. Eso es un poco loco.

Por cierto, no queremos ver k-means como el algoritmo de agrupamiento para series de tiempo. Puede usar la agrupación particional, pero … bueno, se complica. Básicamente es difícil crear una media de series de tiempo no alineadas de una manera que tenga sentido. Por lo general, se prefiere la jerarquía, pero hay otras formas.

Big DataCiencia de datosdatosMinería deseries temporales

Related Content

Cómo construir y mantener una hoja de ruta de pruebas A / B

¿Qué recopiló / recopiló para comenzar con la visualización de datos?

¿Big data es útil para los ingenieros industriales?

¿Cuáles son las habilidades más importantes para un ingeniero de datos?

Cómo decidir qué datos recopilar al construir un modelo predictivo

¿Cuál es la tasa de utilización típica de los servidores de datos locales en las empresas y cómo se compara con los proveedores de servidores en la nube?

¿Qué programas debo descargar en mi PC?

Probaría la agrupación basada en densidad (DBSCAN). La implementación básica tiene complejidad O (n ^ 2) y está disponible en Python: sklearn.cluster.DBSCAN – documentación de scikit-learn 0.18.1. Se puede implementar con O (n * logn) mediante el uso de una estructura de indexación, que ejecuta la consulta de vecindad en O (logn) (por ejemplo, árbol R * – Wikipedia), consulte DBSCAN – Wikipedia

Tomasz Posłuszny

More Interesting

¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático en LinkedIn?

¿Cómo se relaciona el aprendizaje automático con la ciencia de datos?

¿Cómo se debe enfocar el aprendizaje de big data?

¿Qué gráficos de Nvidia, GeForce o Quadro, son los mejores para aplicaciones de análisis de datos grandes, modelado computacional y ciencia de datos?

¿Qué uso como formato de base de datos \ archivo para la canalización de datos de ciencia de datos?

¿Puede uno convertirse en un exitoso arquitecto de Big Data sin aprender Data Science? ¿Cuál es la diferencia entre el arquitecto de Big Data y el científico de datos?

¿Qué tipo de productos construye MAD Street Den?

¿Cuál es la diferencia entre los archivos .zip, .rar, .deb y .tar?

¿Debería / puede una persona con casi 6 años de experiencia en investigación financiera aprender ciencia de datos? ¿Le ayudaría a avanzar en su carrera en investigación?

¿Cómo diferenciaría la ciencia de datos y la inteligencia empresarial?

¿Cuáles son los programas creíbles de capacitación en ciencia de datos que enseñarían habilidades prácticas?

Cómo seleccionar núcleos SVM

¿Qué es la ciencia de datos y el aprendizaje automático? ¿Cuáles son las similitudes y diferencias entre ellos?

Soy un administrador de sistemas de Windows de 36 años en una MNC. ¿Cómo puedo construir una carrera en Data Science?

¿Cómo cambiará el mercado laboral de la ciencia de datos en los próximos diez años?

Web Analytics