¿Qué es el suavizado de datos y cómo puedo usarlo en ciencia de datos / minería?

El suavizado se utiliza para ajustar una serie temporal, cuando hay puntos de datos fluctuantes aleatorios. Para limpiar los datos de estas fluctuaciones aleatorias, los datos deben suavizarse, de ahí el nombre ‘Suavizado’. En general, se podría aplicar esta técnica cuando no hay tendencias estacionales o patrones visibles. Se podría usar para obtener resultados más precisos al predecir / pronosticar una serie temporal.

Los métodos más simples incluyen promedios móviles y promedios móviles ponderados. Para modelos de ciencia de datos más complejos, el suavizado exponencial se usa detrás del algoritmo. Por ej. una serie de tiempo se traza en un gráfico de líneas en R como:

>> ggplot (Tiempo, aes (Columna1))

Si queremos suavizar los puntos de datos para esta serie de tiempo, debería agregar:

>> ggplot (Tiempo, aes (Columna1)) + geom_density (ajustar = 0.5)

Aumente o disminuya el parámetro de ajuste para que la línea sea menos uniforme o más uniforme, respectivamente.