¿Cuál es la diferencia entre el algoritmo K-Nearest Neighbours y el modelo de suavizado exponencial simple en un problema de serie temporal?

La respuesta a su pregunta es una palabra: contexto. Por supuesto, necesita más explicación.

El suavizado exponencial es la predicción de un valor futuro de una serie de tiempo utilizando un promedio (generalmente ponderado) de los valores T pasados. En cierto sentido, es exactamente k-vecinos más cercanos, con k = T y la métrica (que determina cuáles son los valores más cercanos) es bastante simple: se utilizan las unidades T más cercanas disponibles en el tiempo .

Cuando realizamos una media móvil como más uniforme, estamos haciendo lo mismo, aproximadamente.

Sin embargo, a menudo no pensamos en el suavizado exponencial como kNN. El algoritmo k-Nearest Neighbours generalmente se considera en algún espacio de datos (si hay p variables continuas, por ejemplo, como un subconjunto de [math] \ mathbb {R} ^ p [/ math]). Hay todo tipo de modificaciones para hacerlo más eficiente dependiendo de la métrica (la mayoría de la gente piensa en términos del error al cuadrado, pero hay tantos), los datos y el espacio al que pertenecen.

Tampoco llamamos suavizado exponencial kNN porque la palabra “vecino” implica otra variable en el espacio de datos. Una sola serie de tiempo, sin importar cuántas observaciones existan, se llama univariante porque técnicamente se considera una variable con múltiples realizaciones a lo largo del tiempo (que a veces es difícil de comprender para un recién llegado a series de tiempo … a menudo no se explica explícitamente). Entonces, kNN se aplica de hecho a series de tiempo múltiples (y / o multivariadas).

Bien hecho, sin embargo. El hecho de que te hayas dado cuenta muestra una verdadera comprensión de los problemas fundamentales.

Nota: Con respecto a series de tiempo univariantes. Solo pensé en aclarar qué es realmente una serie de tiempo univariante. Suponiendo errores normales, una serie de tiempo univariante es un sorteo único de una distribución normal multivariada . Eso significa que solo hay una medida. La razón por la cual, por ejemplo, las funciones de autocorrelación están restringidas para ser de formas específicas (como ARMA) es para que podamos estimar bien los parámetros. Este es posiblemente el concepto más incomprendido en las series de tiempo (ciertamente fue en el caso cuando traté a mis compañeros de posgrado durante mi doctorado. Un grupo de personas muy inteligentes, pero tuve que golpearlos en la cabeza con el concepto varias veces antes de que se atascara).

Si este es un problema de predicción, tiene una forma como vector de características xy respuesta y. Tiene un conjunto de datos de observaciones X y respuestas Y. Eso es solo x1, …, xn = X e y1, …, yn = Y. El número de observaciones es n. Si desea una variable para la cantidad de características, deje que sea p.

En una serie temporal, está implícito que un conjunto de datos cambia con el tiempo. Entonces, que el índice de tiempo sea t. Entonces t se extiende sobre algunos t0 y tm iniciales por los cuales se recopilan los datos. Entonces, para cada ti, i = 0, …, m el conjunto de datos X e Y puede ser diferente. A su vez, puede indexarlos en X1, …, Xm e Y1, …, Ym.

Luego, para cada punto en el tiempo ti, haces una predicción. Eso es Yi_estimate para aproximar Y_i. Cubre una solución por KNN o suavizado exponencial. De cualquier manera, se interpretan diferentes algoritmos de aprendizaje.

KNN hace una nube de puntos en algún espacio. Puede arreglar la métrica a la distancia euclidiana. Entonces, una forma de hacerlo es corregir el número de clústeres. Luego agrupa los puntos más cercanos a un centroide. Cualquier punto nuevo que llegue se predice en función de la proximidad a un clúster aprendido.

Es probable que el suavizado exponencial se asiente en la regresión y lo suavice con funciones adicionales. Como una función lineal para Y_estimate, con funciones exponenciales más bajas para cada entidad.

Un criterio para la precisión de la estimación de la respuesta y la respuesta observada es la raíz del error cuadrático medio. Esto es

E {(Y-Y_estimate) ^ T (Y-Y_estimate)},

interpretado como la media ideal para todas las diferencias al cuadrado entre la estimación de respuesta y la observación de respuesta.

Desea minimizar ese criterio. También se evalúa como error, como entre estimación y observación. Desea que la estimación se acerque a la observación.

Esto se realiza con el tiempo, un índice entre 0 ym. Por cierto, puede trazar un gráfico t-Yi_estimate y t-Yi. Mostrará una imagen de su diferencia con el tiempo.

More Interesting

¿Cuáles son algunas de las empresas de análisis de big data?

¿Crees que el aprendizaje automático / ciencia de datos puede contribuir a resolver los problemas sociales, de salud y económicos del mundo?

¿Con qué frecuencia se usa el paralelismo en la ciencia de datos?

¿Es mejor tener demasiados falsos positivos o demasiados falsos negativos?

¿Puedo ingresar al análisis de datos sin conocimiento de TI?

¿Qué debe estudiar una persona de aprendizaje automático: visión artificial o ciencia de datos?

¿Existe una demanda de escritores técnicos que se especialicen en ciencia de datos?

¿Los científicos de datos piensan que Hadoop tiene errores?

¿Por qué mi CNN proporciona una buena precisión en los datos de entrenamiento y prueba (división 80-20 del total de datos de entrenamiento) pero falla miserablemente en los datos de validación (no vistos)?

¿Qué corporaciones / empresas multinacionales indias están contratando para trabajos de nivel de entrada en ciencia de datos o análisis de datos? ¿Cuáles son los requisitos para lo mismo?

¿Cuáles son las opciones de salida de Mu Sigma?

¿Qué acciones técnicas y contractuales puede tomar el gerente de proyecto en caso de corrupción de datos durante la migración de datos?

¿Cuáles son algunas escuelas de EE. UU. Que ofrecen títulos universitarios en ciencias de datos?

¿Qué tipo de habilidades necesita desarrollar un programador científico durante la transición a un desarrollador de software industrial?

¿Cuáles son algunos de los mayores problemas que las herramientas de Big Data y visualización de datos pueden resolver para los participantes del mercado financiero?