Cómo cuantificar la cantidad de ruido en un conjunto de datos

Esta es una pregunta más compleja que podría parecer. Primero, déjame darte una respuesta muy simplista. Tomemos el ejemplo más simple: hay una variable de interés y simplemente está tratando de describir la media de una distribución. Por ejemplo, podría preguntar cuál es la estatura media de las mujeres estadounidenses mayores de 18 años. En teoría, podrías salir y medir la altura de cada mujer estadounidense. Podría sumar los números, dividir por el número de observaciones y realmente tendría la respuesta. Pero es demasiado costoso y difícil de manejar para hacer esto. En cambio, solo medirías una muestra; dicen 100 mujeres. Ahora encuentra la media de esa muestra y podría preguntar cuánto “ruido” hay en la estimación. Básicamente, calcula el error estándar de la media. Error estándar

Sin embargo, hay otra interpretación de su pregunta. ¿Cuánto “ruido” hay en la muestra misma? Esta es una cuestión de punto de vista sobre lo que constituye el “ruido”. Digamos que Pepsi le está pagando para demostrar que Pepsi aumenta la altura de las personas. Bueno, para hacerlo de manera muy simple, puede correlacionar la altura con la cantidad de Pepsi que han bebido durante toda su vida. Digamos que hay una correlación moderada de .5. Esto significa que, desde SU perspectiva, la variable de interés, Pepsi, representa el 25% de la variación global. Para USTED, el resto de la variabilidad es “ruido”. Por otro lado, imaginemos que usted es parte de un equipo de genetistas que tiene una teoría de “altura de diez genes” (la altura está determinada por una combinación de diez genes) . Su modelo, digamos, predice el 70% de la variabilidad en la muestra. Para ellos, el otro 10% es “ruido”. Tenga en cuenta que, como defensor de Pepsi, usted ignoró (probablemente ni siquiera sabía acerca de los diez genes o los probó), y toda esa variabilidad, para usted, fue simplemente “ruido”. Pero para los genetistas (que no sabían sobre la conexión de Pepsi), el 25% es ruido.

Related Content

¿Qué es el código de máquina?

¿Cuál es la guía genérica y la mejor guía para aprender TensorFlow desde la plataforma Python? ¿O hay otras bibliotecas mejores que TensorFlow?

¿Cómo funcionan los algoritmos súper recursivos en CUDA?

¿Implementó algoritmos de aprendizaje automático desde cero con el propósito de aprender?

¿Cuáles son las diferencias entre la red neuronal artificial (informática) y la red neuronal biológica?

¿Cuál es la mejor configuración para PC bajo 70-80k inr?

¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?

El ruido surge cuando tienes un modelo subyacente, de lo contrario no podrás distinguir entre ruido y señal.

Como ejemplo, puede ver una función de efecto mixto lineal simple: tamaño = edad * 10 cm

Cuando ajuste su modelo a estos datos en r u otro programa estadístico, verá qué tan bien su modelo se ajusta a los datos, y un parámetro para el ruido podría ser “variación no explicada por su modelo”. Aparte de eso, incluso puede incluir factores aleatorios, mejor descritos como “ruido o variación explicada por un cierto factor”, como los individuos per se o el género, ya que los individuos difieren en tamaño y las mujeres son generalmente más pequeñas en comparación con los hombres.

Además de lo anterior, también hay ruido “fijo”, como otro factor que siempre suma una cantidad similar. Por ejemplo, si desea medir una bombilla bajo la luz solar directa, la función será luz total = sol + bombilla. En este caso, debe restar la luz solar de ruido fijo para obtener su resultado.

Como puede ver, el ruido es bastante subjetivo. No tome esta respuesta como referencia, porque esta es solo mi opinión personal sobre el ruido, probablemente diferente de una explicación científica directa sobre cómo medir el ruido.

John Charles Thomas

No hay una respuesta general a esto, incluso para una sola variable, y mucho menos para un conjunto de datos completo.

De hecho, una forma de ver gran parte de la práctica de las estadísticas es como un intento de separar la señal del ruido. Pero cómo hacerlo depende de lo que tenga y de lo que intente hacer.

Por ejemplo, suponga que tiene una variable cuantitativa medida repetidamente a lo largo del tiempo. Para ser concreto, digamos que es el peso medido en una balanza ordinaria. Pero … ¡eso todavía no es suficiente detalle!

¿Me pesé una vez al día? ¿Una vez por semana? ¿5 veces seguidas?

El último caso es el más simple. Entonces usemos eso. Bueno, aquí podríamos decir que el ruido se mide por la desviación estándar de los pesos, o la desviación absoluta media o el rango de th … o un montón de otras medidas también. ¿Y qué hay del sesgo? ¿Supongamos que la escala no solo es inexacta (todas las escalas lo son) sino que también está sesgada? ¿Es ese ruido? Depende de su definición de “ruido”.

Si me peso una vez al día, puede haber una tendencia. Pero … esa tendencia puede ser, en sí misma, ruido. Entonces, podría proceder como se indica arriba o … podría ajustar un modelo a las medidas y ajustar una línea de tendencia (de diversa complejidad) y medir la desviación de eso.

Pero … ¿qué pasa si N personas se pesan, cada una con una tendencia? Es posible que se ajuste a un modelo multinivel.

Y así.

Y eso es para una variable. ¿Y qué hay de las variables cuantitativas?

Entonces, TL: DR: tome una docena de cursos de estadísticas para aprender cómo hacer esto.

Luis Argerich

More Interesting

¿Cómo revolucionaría el mundo la PNL perfecta por computadoras?

Cómo migrar modelos de aprendizaje automático que están escritos en diferentes lenguajes de programación

¿Cómo determinar el refuerzo lateral en la pila? ¿Cuáles son las especificaciones simplificadas?

Aprendizaje automático: ¿qué significa "abandono en el cerebro con respecto a todas las entradas, mientras que abandono en una red convolucional funciona con respecto a cada unidad individual"?

¿Cuántas imágenes necesito para entrenar una red neuronal convolucional?

Dado que los modelos pueden ser entrenados en datos sintéticos, ¿podemos usar el Entrenamiento Adversario para hacer que las imágenes de prueba sean más sintéticas?