Cuando observamos el muestreo, ¿por qué necesitamos 30 datos?

‘Es que necesita al menos 30 antes de que pueda esperar razonablemente que un análisis basado en la distribución normal (es decir, la prueba z) sea válido. Es decir, representa un umbral por encima del cual el tamaño de la muestra ya no se considera pequeño. Parece tener poco que ver con el poder, que dependerá de los factores habituales de alfa, beta.

La necesidad de tamaños de muestra mínimos es proporcionar la potencia adecuada para distinguir la distribución normal de otras distribuciones, de modo que el hecho de no encontrar una desviación significativa de la normalidad conlleva un grado razonable de confianza de que los datos son consistentes con esa distribución. El número de observaciones necesarias depende de las distribuciones alternativas de interés. El número 30 también proviene de un examen de la distribución de chi-cuadrado. Para datos distribuidos normalmente, se necesitan aproximadamente 30 observaciones para tener límites de confianza razonablemente cortos en la estimación de la varianza.

El tamaño de muestra sugerido de al menos 30 era una consideración puramente pragmática basada en la tasa de convergencia en el CLT. Dado que muchas pruebas de parámetros de población y estimaciones de intervalos se basan en el supuesto de que la distribución de la media de la muestra es Normal, la pregunta es sobre un número suficiente de muestras para tener una alta probabilidad de convergencia “razonable”. Convenientemente, la tasa de convergencia (en distribución) para CLT bajo los supuestos típicos es O (n ^ -1 / 2). Entonces, en n = 30, en general, es muy probable (es decir, en probabilidad) estar dentro del área de “rendimientos decrecientes”, donde la diferencia de convergencia entre n y digamos 2n es muy pequeña pero costosa de obtener (¡2 veces más muestras!). En términos empíricos, aquí es donde la convergencia se estabiliza y la variabilidad es bastante moderada. Otra forma de ver que la derivada de la tasa de convergencia es aceptablemente pequeña en n = 30, por lo que no esperaría mucho beneficio de más muestras. Creo que la idea es estar lo suficientemente lejos de la curva (es decir, derivada = -1 donde comienza a costar más en las muestras de lo que gana en convergencia) que esencialmente la convergencia es lo suficientemente lineal y estable como para dar estimaciones confiables.

Nuestro lema para realizar cualquier análisis en una muestra de datos es obtener una aproximación real de toda la población de datos. Cuando realiza un muestreo en cualquier muestra de datos menor que el tamaño de la muestra de 30 y traza una curva de campana, es posible que no vea una distribución normal, que idealmente es lo que se supone que es la distribución de la población.