Ray Richardson ya lo ha explicado a continuación. Trataré de elaborar con un ejemplo.
El método de aproximación agregada simbólica (SAX) se ha desarrollado para reducir la dimensionalidad de una serie numérica, por ejemplo, una serie de tiempo como se muestra en la primera figura a continuación, en una cadena corta de caracteres. SAX sigue un proceso de dos pasos: (1) Aproximación agregada por partes (PAA) y (2) conversión de una secuencia de PAA en una serie de letras. PAA divide el conjunto de datos de longitud n en w segmentos o contenedores igualmente espaciados, y calcula el promedio de cada segmento. Esto esencialmente significa que reducimos el número de dimensiones de n a w . Para el ejemplo específico aquí, la dimensionalidad se ha reducido de 200 a 20, como se muestra en la segunda figura con segmentos discretos de línea horizontal, con cada segmento representando un agregado sobre 10 puntos de datos consecutivos en la serie de tiempo. Tenga en cuenta que la serie temporal se ha normalizado para tener una media de cero y una desviación estándar de uno, antes de convertirla a la representación PAA.
El método SAX toma la representación PAA como entrada y la discretiza en un conjunto de k alfabetos, de modo que, típicamente, k << n . Se supone que la serie temporal normalizada tiene una distribución gaussiana. A continuación, se determinan los llamados “puntos de ruptura” que producirán k áreas de igual tamaño bajo la curva normal estándar, que se muestra con líneas de puntos de colores en la segunda figura. Todos los coeficientes PAA que están por debajo del punto de ruptura más pequeño se asignan al símbolo ‘ a ‘, todos los coeficientes mayores que iguales al punto de ruptura más pequeño y menores que el segundo punto de ruptura más pequeño se asignan al símbolo ‘ b ‘, y así sucesivamente. Eche un vistazo a la Fig. 2 para ver qué está pasando.
En el contexto de la minería de datos, se ha demostrado que SAX es tan bueno como las representaciones bien conocidas, como la transformada de wavelet discreta y la transformada de Fourier discreta, a la vez que requiere menos espacio de almacenamiento.
Echa un vistazo al artículo de Jessica Lin aquí: http://cs.gmu.edu/~jessica/SAX_D…
- ¿Qué tan bueno es el ADVI en STAN en la práctica?
- ¿Dónde puedo encontrar cursos de aprendizaje automático y redes neuronales en la web?
- ¿Cuáles son los siguientes pasos en el reconocimiento de voz después de extraer las funciones de MFCC?
- ¿Debo escribir el código de Random Forest por mi cuenta o usar implementaciones existentes?
- ¿Qué conocimiento previo es necesario para el aprendizaje automático?