Cómo cuantificar la cantidad de ruido en un conjunto de datos

Esta es una pregunta más compleja que podría parecer. Primero, déjame darte una respuesta muy simplista. Tomemos el ejemplo más simple: hay una variable de interés y simplemente está tratando de describir la media de una distribución. Por ejemplo, podría preguntar cuál es la estatura media de las mujeres estadounidenses mayores de 18 años. En teoría, podrías salir y medir la altura de cada mujer estadounidense. Podría sumar los números, dividir por el número de observaciones y realmente tendría la respuesta. Pero es demasiado costoso y difícil de manejar para hacer esto. En cambio, solo medirías una muestra; dicen 100 mujeres. Ahora encuentra la media de esa muestra y podría preguntar cuánto “ruido” hay en la estimación. Básicamente, calcula el error estándar de la media. Error estándar

Sin embargo, hay otra interpretación de su pregunta. ¿Cuánto “ruido” hay en la muestra misma? Esta es una cuestión de punto de vista sobre lo que constituye el “ruido”. Digamos que Pepsi le está pagando para demostrar que Pepsi aumenta la altura de las personas. Bueno, para hacerlo de manera muy simple, puede correlacionar la altura con la cantidad de Pepsi que han bebido durante toda su vida. Digamos que hay una correlación moderada de .5. Esto significa que, desde SU perspectiva, la variable de interés, Pepsi, representa el 25% de la variación global. Para USTED, el resto de la variabilidad es “ruido”. Por otro lado, imaginemos que usted es parte de un equipo de genetistas que tiene una teoría de “altura de diez genes” (la altura está determinada por una combinación de diez genes) . Su modelo, digamos, predice el 70% de la variabilidad en la muestra. Para ellos, el otro 10% es “ruido”. Tenga en cuenta que, como defensor de Pepsi, usted ignoró (probablemente ni siquiera sabía acerca de los diez genes o los probó), y toda esa variabilidad, para usted, fue simplemente “ruido”. Pero para los genetistas (que no sabían sobre la conexión de Pepsi), el 25% es ruido.

El ruido surge cuando tienes un modelo subyacente, de lo contrario no podrás distinguir entre ruido y señal.

Como ejemplo, puede ver una función de efecto mixto lineal simple: tamaño = edad * 10 cm

Cuando ajuste su modelo a estos datos en r u otro programa estadístico, verá qué tan bien su modelo se ajusta a los datos, y un parámetro para el ruido podría ser “variación no explicada por su modelo”. Aparte de eso, incluso puede incluir factores aleatorios, mejor descritos como “ruido o variación explicada por un cierto factor”, como los individuos per se o el género, ya que los individuos difieren en tamaño y las mujeres son generalmente más pequeñas en comparación con los hombres.

Además de lo anterior, también hay ruido “fijo”, como otro factor que siempre suma una cantidad similar. Por ejemplo, si desea medir una bombilla bajo la luz solar directa, la función será luz total = sol + bombilla. En este caso, debe restar la luz solar de ruido fijo para obtener su resultado.

Como puede ver, el ruido es bastante subjetivo. No tome esta respuesta como referencia, porque esta es solo mi opinión personal sobre el ruido, probablemente diferente de una explicación científica directa sobre cómo medir el ruido.

No hay una respuesta general a esto, incluso para una sola variable, y mucho menos para un conjunto de datos completo.

De hecho, una forma de ver gran parte de la práctica de las estadísticas es como un intento de separar la señal del ruido. Pero cómo hacerlo depende de lo que tenga y de lo que intente hacer.

Por ejemplo, suponga que tiene una variable cuantitativa medida repetidamente a lo largo del tiempo. Para ser concreto, digamos que es el peso medido en una balanza ordinaria. Pero … ¡eso todavía no es suficiente detalle!

¿Me pesé una vez al día? ¿Una vez por semana? ¿5 veces seguidas?

El último caso es el más simple. Entonces usemos eso. Bueno, aquí podríamos decir que el ruido se mide por la desviación estándar de los pesos, o la desviación absoluta media o el rango de th … o un montón de otras medidas también. ¿Y qué hay del sesgo? ¿Supongamos que la escala no solo es inexacta (todas las escalas lo son) sino que también está sesgada? ¿Es ese ruido? Depende de su definición de “ruido”.

Si me peso una vez al día, puede haber una tendencia. Pero … esa tendencia puede ser, en sí misma, ruido. Entonces, podría proceder como se indica arriba o … podría ajustar un modelo a las medidas y ajustar una línea de tendencia (de diversa complejidad) y medir la desviación de eso.

Pero … ¿qué pasa si N personas se pesan, cada una con una tendencia? Es posible que se ajuste a un modelo multinivel.

Y así.

Y eso es para una variable. ¿Y qué hay de las variables cuantitativas?

Entonces, TL: DR: tome una docena de cursos de estadísticas para aprender cómo hacer esto.

More Interesting

¿Cómo revolucionaría el mundo la PNL perfecta por computadoras?

Cómo migrar modelos de aprendizaje automático que están escritos en diferentes lenguajes de programación

¿Cómo determinar el refuerzo lateral en la pila? ¿Cuáles son las especificaciones simplificadas?

Aprendizaje automático: ¿qué significa "abandono en el cerebro con respecto a todas las entradas, mientras que abandono en una red convolucional funciona con respecto a cada unidad individual"?

¿Cuántas imágenes necesito para entrenar una red neuronal convolucional?

Dado que los modelos pueden ser entrenados en datos sintéticos, ¿podemos usar el Entrenamiento Adversario para hacer que las imágenes de prueba sean más sintéticas?

¿Cuáles son las implicaciones de privacidad del reconocimiento facial DeepFace de Facebook?

¿Cómo validaría un modelo que creó para generar un modelo predictivo de una variable de resultado cuantitativa mediante regresión múltiple?

¿Cuál es la explicación de la causa de la explosión y desaparición del gradiente de red neuronal recurrente RNN?

¿Cuáles son las aplicaciones del aprendizaje profundo en la India?

¿Qué pasos son necesarios para construir un sistema de aprendizaje profundo para el análisis de sentimientos, tomando como datos de entrada de las redes sociales?

¿Me puede dar explicaciones completas de AI y ML?

Hablando intuitivamente, ¿cuál es la diferencia entre la estimación bayesiana y la estimación de máxima verosimilitud?

¿Cuál es el análisis de opinión en el caso de TripAdvisor? ¿Como funciona?

¿Qué parte del autoencoder realmente representa las características aprendidas?