¿Qué queremos decir cuando usamos la palabra ruido en ciencia de datos y estadística?

El “ruido” se refiere a la estabilidad de los datos. Algunos datos son muy estables y poseen poca variabilidad, mientras que otros cambian de manera salvaje e impredecible de un valor a otro. El grado de ese swing es la cantidad de ruido. Los datos que son fáciles de predecir son preferibles, porque ofrecen la posibilidad de ser utilizados para pronosticar. Los datos ruidosos que pueden asumir casi cualquier valor en cualquier momento son mucho menos confiables y, en consecuencia, de mucho menos uso. Los datos son tan confusos que, cuando se grafican, se asemejan al “ruido blanco” antiguo que solía escuchar después de la medianoche en su televisor.

La razón por la que se llama “ruido” es que el swing loco generalmente se debe a una gran cantidad de variables que aún no se tienen en cuenta. En términos de información, es el ruido lo que oscurece la señal oculta. Muchas de estas otras variables califican como variables aleatorias. Podrían ser problemas de instrumentación, ingreso de datos incorrecto o variables “exógenas” que están completamente fuera del sistema en estudio, pero que lo afectan de todos modos. Como ejemplo, los datos de análisis web son notoriamente ruidosos porque la web en sí misma no está construida muy bien para ser medida.

Una de las ideas clave en estadística fue el desarrollo de métodos para separar la parte aleatoria de la parte determinista, la última de las cuales puede usarse para pronosticar. Desafortunadamente, en muchos casos, la parte determinista de los datos ruidosos es una fracción tan pequeña del total que su intervalo de confianza es demasiado amplio para que muchos analistas puedan confiar. Consulte cualquier buena fuente para obtener una explicación del GLM, o modelo lineal general, que da lugar a la técnica común de regresión. Este modelo se ha utilizado durante décadas para dividir lo aleatorio de lo determinista y proporcionar una cifra de cuán grande es el papel determinista en el resultado total. Se conoce como el “r cuadrado” y con datos ruidosos puede ser bastante bajo.

Los datos ruidosos también pueden circular en un conjunto de datos más amplio. En la siguiente ilustración, los datos de limpieza superior son fáciles de usar, mientras que el inferior tiene lo que solíamos llamar “hierba”:

Observe cómo el ruido distorsiona la señal. Es casi seguro que este ruido es de naturaleza eléctrica y podría deberse a conexiones de cables deficientes, campos EM fuertes cercanos o cosas similares.

La siguiente imagen muestra una forma diferente de ruido. Aquí, el ruido a medida que se mueve hacia la derecha en el eje X se vuelve cada vez mayor hasta que los puntos simplemente aparecen totalmente al azar: