‘Es que necesita al menos 30 antes de que pueda esperar razonablemente que un análisis basado en la distribución normal (es decir, la prueba z) sea válido. Es decir, representa un umbral por encima del cual el tamaño de la muestra ya no se considera pequeño. Parece tener poco que ver con el poder, que dependerá de los factores habituales de alfa, beta.
La necesidad de tamaños de muestra mínimos es proporcionar la potencia adecuada para distinguir la distribución normal de otras distribuciones, de modo que el hecho de no encontrar una desviación significativa de la normalidad conlleva un grado razonable de confianza de que los datos son consistentes con esa distribución. El número de observaciones necesarias depende de las distribuciones alternativas de interés. El número 30 también proviene de un examen de la distribución de chi-cuadrado. Para datos distribuidos normalmente, se necesitan aproximadamente 30 observaciones para tener límites de confianza razonablemente cortos en la estimación de la varianza.
El tamaño de muestra sugerido de al menos 30 era una consideración puramente pragmática basada en la tasa de convergencia en el CLT. Dado que muchas pruebas de parámetros de población y estimaciones de intervalos se basan en el supuesto de que la distribución de la media de la muestra es Normal, la pregunta es sobre un número suficiente de muestras para tener una alta probabilidad de convergencia “razonable”. Convenientemente, la tasa de convergencia (en distribución) para CLT bajo los supuestos típicos es O (n ^ -1 / 2). Entonces, en n = 30, en general, es muy probable (es decir, en probabilidad) estar dentro del área de “rendimientos decrecientes”, donde la diferencia de convergencia entre n y digamos 2n es muy pequeña pero costosa de obtener (¡2 veces más muestras!). En términos empíricos, aquí es donde la convergencia se estabiliza y la variabilidad es bastante moderada. Otra forma de ver que la derivada de la tasa de convergencia es aceptablemente pequeña en n = 30, por lo que no esperaría mucho beneficio de más muestras. Creo que la idea es estar lo suficientemente lejos de la curva (es decir, derivada = -1 donde comienza a costar más en las muestras de lo que gana en convergencia) que esencialmente la convergencia es lo suficientemente lineal y estable como para dar estimaciones confiables.
- Como científico de datos, ¿con quién preferirías jugar: Google o Facebook?
- ¿Cuáles son las aplicaciones de Data Science donde no hay datos recopilados previamente?
- ¿Qué significan los datos espaciales?
- Soy de una experiencia que no es CS / IT, uniéndome al sector de análisis de datos, aprendiendo R y Python. ¿Es esta la elección correcta? En caso afirmativo, ¿cómo puedo hacerlo?
- ¿Cómo aborda un científico de datos experto un problema de aprendizaje automático? ¿Puedes explicar paso a paso?