Psuedoreplication es cuando tratas las muestras como independientes cuando no lo son.
Para desempaquetar eso: realicemos un estudio para determinar si hay diferencias de sexo en la altura.
Un diseño experimental, el mejor, sería muestrear al azar a personas de la población mundial, medir su altura y ver si el sexo proporciona información sobre la altura ( es decir , ver qué tan separadas están las dos distribuciones). En el mundo real, este efecto es bastante fuerte, por lo que si tuviéramos que medir la altura de, digamos, 47 hombres y 52 mujeres y comparar sus alturas, debería obtener un efecto agradable y significativo incluso con este tamaño de muestra relativamente bajo.
- ¿Cuánto conocimiento estadístico es necesario para convertirse en un buen científico de datos? ¿Alguna guía / fuente / libro práctico para aprender estadísticas que sea suficiente para fines de ciencia de datos?
- ¿Cómo se protegen los datos sanitarios de los ciberataques?
- ¿Son útiles las estadísticas bayesianas en la ciencia de datos?
- ¿Los consultores de ciencia de datos / aprendizaje automático ganan más que los asalariados?
- ¿Cuál es la relación entre el análisis de datos exploratorios y el modelado de simulación?
Otro diseño experimental, la versión horrible que sufre de pseudoreplicación, sería medir mi altura (hombre, 185 cm) 47 veces y la altura de mi esposa (mujer, 172 cm) 52 veces y comparar la distribución de los resultados. Lo y he aquí! En este experimento, las distribuciones son totalmente separables y puedo decir con seguridad que sí, los hombres siempre son más altos que las mujeres.
¿Ves el problema allí? Estoy tratando las 47 medidas de mi altura y las 52 medidas de la altura de mi esposa, cada una como una observación independiente cuando en realidad obviamente no lo son.
Este es un ejemplo atroz, pero entiendes la idea.
Imagine que es una startup joven y quiere saber si el rediseño de su sitio produce mejores clics o conversiones o lo que sea. Por lo tanto, recopila algunos datos en una prueba A / B y descubre que el rediseño es excelente y ofrece mejores tasas de clics. ¡Hurra! ¡Trae la Serie A!
Pero espera.
Profundiza en los datos y descubre que realmente solo tiene 2 direcciones IP únicas en su conjunto de datos de 1000 muestras totales en su “grupo de tratamiento”, y que la gran diferencia de CTR “causada por” el rediseño se debió a que esas dos direcciones IP llegaron de su madre y su abuela, quienes hacen clic en todo en su sitio web cada vez que lo visitan porque les encanta el nuevo y genial sitio web de su querida bebé.
Entonces, sus estadísticas le dijeron que sus 1000 impresiones en el rediseño dieron métricas enormemente mejoradas, pero en realidad no tenía 1000 impresiones, tenía 2 impresiones con muchas muestras de cada una. Lo que debe hacer es bin o promedio en IP únicas.
Sin saber esto, terminaría tomando una decisión basada en datos muy malos.