¿Cuál es la diferencia entre el algoritmo K-Nearest Neighbours y el modelo de suavizado exponencial simple en un problema de serie temporal?

La respuesta a su pregunta es una palabra: contexto. Por supuesto, necesita más explicación.

El suavizado exponencial es la predicción de un valor futuro de una serie de tiempo utilizando un promedio (generalmente ponderado) de los valores T pasados. En cierto sentido, es exactamente k-vecinos más cercanos, con k = T y la métrica (que determina cuáles son los valores más cercanos) es bastante simple: se utilizan las unidades T más cercanas disponibles en el tiempo .

Cuando realizamos una media móvil como más uniforme, estamos haciendo lo mismo, aproximadamente.

Sin embargo, a menudo no pensamos en el suavizado exponencial como kNN. El algoritmo k-Nearest Neighbours generalmente se considera en algún espacio de datos (si hay p variables continuas, por ejemplo, como un subconjunto de [math] \ mathbb {R} ^ p [/ math]). Hay todo tipo de modificaciones para hacerlo más eficiente dependiendo de la métrica (la mayoría de la gente piensa en términos del error al cuadrado, pero hay tantos), los datos y el espacio al que pertenecen.

Tampoco llamamos suavizado exponencial kNN porque la palabra “vecino” implica otra variable en el espacio de datos. Una sola serie de tiempo, sin importar cuántas observaciones existan, se llama univariante porque técnicamente se considera una variable con múltiples realizaciones a lo largo del tiempo (que a veces es difícil de comprender para un recién llegado a series de tiempo … a menudo no se explica explícitamente). Entonces, kNN se aplica de hecho a series de tiempo múltiples (y / o multivariadas).

Bien hecho, sin embargo. El hecho de que te hayas dado cuenta muestra una verdadera comprensión de los problemas fundamentales.

Nota: Con respecto a series de tiempo univariantes. Solo pensé en aclarar qué es realmente una serie de tiempo univariante. Suponiendo errores normales, una serie de tiempo univariante es un sorteo único de una distribución normal multivariada . Eso significa que solo hay una medida. La razón por la cual, por ejemplo, las funciones de autocorrelación están restringidas para ser de formas específicas (como ARMA) es para que podamos estimar bien los parámetros. Este es posiblemente el concepto más incomprendido en las series de tiempo (ciertamente fue en el caso cuando traté a mis compañeros de posgrado durante mi doctorado. Un grupo de personas muy inteligentes, pero tuve que golpearlos en la cabeza con el concepto varias veces antes de que se atascara).