Puede que esta no sea la respuesta que estás buscando, pero …
Supongamos que está tratando de estimar cuántas personas de la población X harán algo Y, en función de la muestra Z. La muestra Z puede no ser necesariamente una muestra perfectamente aleatoria de X; puede haber sesgos de selección y / o respuesta.
Paso uno: infiera el% de X que hará Y, en función de sus datos de la muestra Z. Por ejemplo, prediga el% de votantes que elegirán un determinado candidato.
- ¿Qué tipo de pruebas ejecuta para validar la calidad de sus datos?
- ¿Data Science es el futuro de la programación y la habilidad de aprender de los aspirantes a programadores?
- Empecé a aprender ciencia de datos. ¿Dataquest.io vale la suscripción?
- Cómo obtener un gran conjunto de datos para simular big data
- Cómo convertirse en un científico de datos en la NASA
Paso dos: observa empíricamente el% real de X que realmente hace Y, basado en datos de la vida real. Por ejemplo, lea sobre los resultados de la elección el día después de que se celebre.
Paso tres: compara tu estimación inferida con la observación empírica.
Obviamente, esto no es muy útil si tiene una estimación de “todo o nada” (como una predicción de un solo evento). Pero en muchos casos, tomará múltiples muestras Z1, Z2, Z3 … Zn de la población X durante un período de tiempo, utilizando el mismo método. En esos casos, tener una idea del rendimiento de las muestras pasadas frente a los datos reales puede ayudarlo a diagnosticar y curar los sesgos de selección y respuesta, y / o al menos tener una idea de cómo (in) estimaciones precisas basadas en su metodología de muestreo serán .