¿Cuál es la mejor manera de encontrar el conjunto de patrones similares en datos de series de tiempo?

¿Qué quieres decir con un patrón? ¿Estás buscando solo patrones de longitud 12? ¿O también desea patrones más cortos, por ejemplo, de longitud 4, independientemente de dónde se encuentren en la serie? (¿Entonces un patrón en el mes 1-4 puede ser similar al mes 8-12 en otra serie?)

Además, ¿importan la magnitud y el valor absoluto, o solo la dirección?

Un enfoque es comenzar de manera muy simple, tratando cada mes de datos como binario arriba / abajo en comparación con el mes anterior. Entonces está tratando con un espacio de estado de 2 ^ 11 = 2048 posibles patrones de longitud 11. Luego puede agrupar los datos en esas categorías y hacer una prueba de chi-cuadrado para detectar una desviación significativa de una distribución uniforme.

Si está interesado en patrones más cortos, por ejemplo, longitud 6, longitud 4, etc., puede aplicar fácilmente el mismo enfoque allí.

Tal enfoque se ha utilizado para identificar canciones cantadas por los usuarios. En lugar de tratar de igualar el tono y la duración, una tarea mucho más complicada, algunos buenos enfoques simplemente coinciden con el patrón de arriba a abajo de las notas, algo fácil de hacer y más robusto.

Esto puede expandirse a enfoques de grano más fino, como arriba-grande, arriba-pequeño, abajo-pequeño, abajo-grande, etc. Por supuesto, cuanto más fino vaya, mayor será el espacio de estado que tenga. Dado que solo tiene 100,000 series de tiempo, un gran espacio de estado no es exactamente su amigo aquí.

FactorPrism (www.factorprism.com) es una gran herramienta nueva para encontrar patrones automáticamente en datos de series temporales. Utiliza un enfoque novedoso para detectar sin esfuerzo los efectos de confusión y se vincula directamente a su base de datos transaccional.

More Interesting

¿Cómo son convexos los métodos del núcleo?

¿Es efectivo el entrenamiento de confrontación contra los ejemplos de confrontación en general?

Cómo desarrollar una recuperación de imagen basada en contenido

¿Cuáles son las desventajas de [math] abs (x) [/ math] como función de activación en redes neuronales?

¿Cuál es el poder computacional de las redes neuronales no recurrentes frente a las redes neuronales recurrentes?

¿Qué nuevas empresas están buscando actualmente científicos de datos?

¿Cómo se elige una función de activación? He notado que las funciones más utilizadas se parecen, especialmente cerca de 0. ¿Tienen que ajustarse a algún comportamiento específico? ¿Es este un tema de investigación abierto? ¿Hace una gran diferencia en los resultados?

¿Qué es el procesamiento de señales y cómo se relaciona con el aprendizaje automático?

¿Cuáles son algunos algoritmos de corrección ortográfica que usan los motores de búsqueda? Por ejemplo, cuando utilicé Google para buscar "imágenes de Google", me preguntó: "¿Quiso decir: imágenes de Google?".

¿Cuáles son las diversas aplicaciones del aprendizaje automático en ciencias de la salud / ciencias de la vida?

¿Cómo detectar el idioma de un texto escrito en inglés? ¿Hay una API disponible donde podamos dar el texto como entrada?

¿Existen trabajos de Ciencia de datos y Aprendizaje automático para estudiantes de primer año en India?

Cómo detectar y eliminar valores atípicos de ese conjunto de datos

¿Cuál es la fortaleza y la debilidad del departamento de CS de Caltech, especialmente en el área de Machine Learning?

Support Vector Machines: ¿Cómo elijo un parámetro de escala de kernel?