¿Qué queremos decir cuando usamos la palabra ruido en ciencia de datos y estadística?

El “ruido” se refiere a la estabilidad de los datos. Algunos datos son muy estables y poseen poca variabilidad, mientras que otros cambian de manera salvaje e impredecible de un valor a otro. El grado de ese swing es la cantidad de ruido. Los datos que son fáciles de predecir son preferibles, porque ofrecen la posibilidad de ser utilizados para pronosticar. Los datos ruidosos que pueden asumir casi cualquier valor en cualquier momento son mucho menos confiables y, en consecuencia, de mucho menos uso. Los datos son tan confusos que, cuando se grafican, se asemejan al “ruido blanco” antiguo que solía escuchar después de la medianoche en su televisor.

La razón por la que se llama “ruido” es que el swing loco generalmente se debe a una gran cantidad de variables que aún no se tienen en cuenta. En términos de información, es el ruido lo que oscurece la señal oculta. Muchas de estas otras variables califican como variables aleatorias. Podrían ser problemas de instrumentación, ingreso de datos incorrecto o variables “exógenas” que están completamente fuera del sistema en estudio, pero que lo afectan de todos modos. Como ejemplo, los datos de análisis web son notoriamente ruidosos porque la web en sí misma no está construida muy bien para ser medida.

Una de las ideas clave en estadística fue el desarrollo de métodos para separar la parte aleatoria de la parte determinista, la última de las cuales puede usarse para pronosticar. Desafortunadamente, en muchos casos, la parte determinista de los datos ruidosos es una fracción tan pequeña del total que su intervalo de confianza es demasiado amplio para que muchos analistas puedan confiar. Consulte cualquier buena fuente para obtener una explicación del GLM, o modelo lineal general, que da lugar a la técnica común de regresión. Este modelo se ha utilizado durante décadas para dividir lo aleatorio de lo determinista y proporcionar una cifra de cuán grande es el papel determinista en el resultado total. Se conoce como el “r cuadrado” y con datos ruidosos puede ser bastante bajo.

Los datos ruidosos también pueden circular en un conjunto de datos más amplio. En la siguiente ilustración, los datos de limpieza superior son fáciles de usar, mientras que el inferior tiene lo que solíamos llamar “hierba”:

Observe cómo el ruido distorsiona la señal. Es casi seguro que este ruido es de naturaleza eléctrica y podría deberse a conexiones de cables deficientes, campos EM fuertes cercanos o cosas similares.

La siguiente imagen muestra una forma diferente de ruido. Aquí, el ruido a medida que se mueve hacia la derecha en el eje X se vuelve cada vez mayor hasta que los puntos simplemente aparecen totalmente al azar:

Si recuerdo correctamente, la palabra “ruido” vino del procesamiento de la señal. Porque, bueno, había ruido, una adición externa de variabilidad, agregada a la señal.

Las estadísticas, tal como las conocemos hoy, comenzaron a través de mediciones (en astronomía al principio). Si había incertidumbre en la medición, y siempre la había, de alguna manera tenía que tenerse en cuenta.

Avance rápido hasta hoy. Estamos analizando todo tipo de problemas, y hay muchas formas de analizar lo que hace la estadística. Una forma es la aproximación de funciones .

Podemos formular el aprendizaje supervisado (clasificación o regresión) de una salida [matemática] Y [/ matemática] de las entradas [matemática] X [/ matemática] como aprender una función [matemática] f [/ matemática] tal que

[matemáticas] Y = f (X) + \ epsilon [/ matemáticas]

donde [math] \ epsilon [/ math] es el “error de medición”. Esto a menudo se llama ruido, y generalmente se supone que tiene algún tipo de distribución de probabilidad.

La razón por la que tenemos el ruido involucrado es porque (a) hay errores inherentes en cualquier tipo de medición y (b) hace que la aproximación de la función funcione, especialmente cuando no conocemos la forma “verdadera” de la función ( si hay uno.)

No puedo hablar sobre ciencia de datos, pero creo que los estadísticos / analistas de datos usan “ruido” para significar “lo que no es señal y realmente no se puede explicar”.

Creo que el “ruido” generalmente implica una falta de sesgo. Por lo tanto, no es tanto un error debido a una variable omitida como un error debido a cosas como error de medición, instrumentos poco confiables, etc.

ruido significa información irrelevante e información inútil en forma de datos, sonido, imagen, video, bordes, elementos de matriz, etc.

More Interesting

¿Big Data llegó para quedarse?

¿Qué significan para las personas las frases "desarrollo basado en datos" y "productos basados ​​en datos"?

¿Cuál es la relación entre el análisis de datos exploratorios y el modelado de simulación?

¿Cuál es el alcance futuro del programa IIM C PGDBA?

¿Cuál es una lectura más útil para alguien interesado en la investigación de LA: "Teoría del aprendizaje estadístico" de Vapnik, o "Elementos del aprendizaje estadístico" de Friedman / Tibshirani / Hastie?

¿Por qué la mayoría de los científicos computacionales (p. Ej. Biólogos, astrofísicos) son malos programadores según los estándares de CS?

¿Cuáles son algunos buenos libros / documentos sobre aprendizaje kernelized, en general y especialmente con SVM?

¿Cuál es el mejor instituto para la ciencia de datos?

¿Qué tan buena es la colocación cooperativa para el programa de Big Data en SFU? ¿Cómo son las oportunidades de trabajo para el programa de Big Data en Vancouver para graduados de SFU?

¿Consejos prácticos para el aprendizaje automático?

¿Por qué se utiliza el índice de mapa de bits en el almacenamiento de datos?

¿Cuál es el mejor instituto de big data en Kolkata?

¿Cómo pueden los bancos (pequeños, medianos y grandes) usar big data para ser más eficientes?

Soy un estudiante de secundaria interesado en Data Science. ¿Cómo puedo comenzar a aprender y jugar con conjuntos de datos?

He descubierto varias certificaciones de ciencia de datos como CAP y DMA. ¿Serían necesarios para mi carrera?