¿Qué porcentaje de una muestra proporciona suficiente análisis de datos?

El porcentaje no importa. A menos que lo haga.

Empecemos con lo básico. Supongamos que desea resumir la medida de cada miembro de una población. Ese resumen (media, mediana, moda, máximo, mínimo, etc.) es una estimación puntual de la distribución real. Es un resumen de un número, no toda la distribución, que es más fácil de ver con un histograma. Desea un resumen de un número, una estadística. Bueno. Un ejemplo es la media, y es la estadística más comúnmente reportada, pero las ideas aquí se aplican a cualquier resumen de datos de un número.

¿Qué queremos decir con “suficiente”? Probablemente queremos decir con cierta precisión. Una forma común de resumir esta incertidumbre es con un intervalo de confianza del 95%. Omitamos el significado más profundo de un intervalo de confianza y solo digamos que cuanto más corto sea el intervalo, más sabemos sobre la ubicación de la estadística (media, aquí). Corto es bueno. Entendido.

Ahora tomemos un ejemplo artificial pero tan común como para ser asumido la mayor parte del tiempo. Suponga que quiere saber la media de alguna medida para un grupo, por ejemplo, la altura de las personas. Podemos tomar una muestra de tamaño 100. Suponga que la desviación estándar de la muestra es de 3 pulgadas. El error estándar de la media (incertidumbre de nuestra medida de la media) es 3 / sqrt (100) = 3/10 pulgadas. Para obtener un intervalo de confianza del 95%, vamos “más o menos” dos de estos. Entonces nuestro intervalo de confianza es +/- 6/10 de pulgada. Si la media es 5′4 ″, entonces sabemos que la media probablemente esté en [5′3.4 ″, 5′4.6 ″].

Tenga en cuenta que el error estándar tiene la desviación estándar de la muestra y el tamaño de la muestra. El tamaño de la población no importa, por lo que el porcentaje de la muestra no importa. Si tomamos una muestra aleatoria , la Ley de números grandes dice que podemos determinar la media solo en función de la muestra. Un resultado de esto es que podemos muestrear Maine (¿población de 1 millón?) Y los Estados Unidos (población de 350 millones) con el mismo tamaño de muestra y tener la misma precisión. Los porcentajes no importan.

Hasta que lo hagan. A menudo nuestras muestras no son aleatorias. A veces solo conseguimos que las personas que se presenten voten, no una muestra aleatoria de todos los que pueden votar. Las personas que se presentan no son como todas las personas que podrían votar, por lo que los resultados de las elecciones se distorsionan de manera diferente (más conservadora) que la población elegible para votar. Si su muestra no es aleatoria, no importa cuán grande sea su muestra: aún puede sacar conclusiones incorrectas.