Cómo estimar errores debido al peso de los datos

Puede que esta no sea la respuesta que estás buscando, pero …

Supongamos que está tratando de estimar cuántas personas de la población X harán algo Y, en función de la muestra Z. La muestra Z puede no ser necesariamente una muestra perfectamente aleatoria de X; puede haber sesgos de selección y / o respuesta.

Paso uno: infiera el% de X que hará Y, en función de sus datos de la muestra Z. Por ejemplo, prediga el% de votantes que elegirán un determinado candidato.

Paso dos: observa empíricamente el% real de X que realmente hace Y, basado en datos de la vida real. Por ejemplo, lea sobre los resultados de la elección el día después de que se celebre.

Paso tres: compara tu estimación inferida con la observación empírica.

Obviamente, esto no es muy útil si tiene una estimación de “todo o nada” (como una predicción de un solo evento). Pero en muchos casos, tomará múltiples muestras Z1, Z2, Z3 … Zn de la población X durante un período de tiempo, utilizando el mismo método. En esos casos, tener una idea del rendimiento de las muestras pasadas frente a los datos reales puede ayudarlo a diagnosticar y curar los sesgos de selección y respuesta, y / o al menos tener una idea de cómo (in) estimaciones precisas basadas en su metodología de muestreo serán .

More Interesting

Cómo hacer que el aprendizaje del análisis de datos y el tema del algoritmo sea más fácil e interesante

¿Qué tipo de eventos de usuario deben enviarse a Kafka para sitios de comercio electrónico clásicos?

¿Qué tipo de cosas debería aprender a ser un analista de datos más reciente?

¿Cómo resuelven los problemas los científicos de datos? ¿Cuál es el marco del proceso de pensamiento para enmarcar un problema y trabajar en la solución?

¿Con qué frecuencia los científicos de datos usan Matlab?

¿Cómo utilizan las empresas de alquiler el aprendizaje automático?

Cómo analizar un conjunto de datos de viaje que contiene tiempo / modo / ingresos por persona

Desde la licenciatura en biología molecular hasta el aprendizaje automático de Python, ¿cómo y qué lo inspiró a emprender el camino hacia la ciencia de datos?

¿Qué proyectos interesantes de análisis de datos se han completado utilizando herramientas de redes sociales?

¿Cómo es Data Mining and Predictive Analytics, de Chantal d larose?

¿Sería posible seleccionar un gran asteroide de hielo (fuera del cinturón de asteroides) y propulsarlo hacia Marte, creando así una atmósfera acuosa?

Cómo dominar la programación de Python para trabajos de ciencia de datos

¿Qué debe saber un CEO, gerente de producto y analista de comercio electrónico sobre la medición del desempeño, los KPI del producto (indicadores clave de desempeño), las métricas, etc.

¿Hay alguna manera de comprimir una gran cantidad de datos a un tamaño muy pequeño como en una bomba zip?

¿Hay alguna capacitación en el aula dirigida por un instructor en Pune para el aprendizaje automático y la ciencia de datos para un principiante completo?