¿Qué es una explicación intuitiva de la pseudoreplicación?

Psuedoreplication es cuando tratas las muestras como independientes cuando no lo son.

Para desempaquetar eso: realicemos un estudio para determinar si hay diferencias de sexo en la altura.

Un diseño experimental, el mejor, sería muestrear al azar a personas de la población mundial, medir su altura y ver si el sexo proporciona información sobre la altura ( es decir , ver qué tan separadas están las dos distribuciones). En el mundo real, este efecto es bastante fuerte, por lo que si tuviéramos que medir la altura de, digamos, 47 hombres y 52 mujeres y comparar sus alturas, debería obtener un efecto agradable y significativo incluso con este tamaño de muestra relativamente bajo.

Otro diseño experimental, la versión horrible que sufre de pseudoreplicación, sería medir mi altura (hombre, 185 cm) 47 veces y la altura de mi esposa (mujer, 172 cm) 52 veces y comparar la distribución de los resultados. Lo y he aquí! En este experimento, las distribuciones son totalmente separables y puedo decir con seguridad que sí, los hombres siempre son más altos que las mujeres.

¿Ves el problema allí? Estoy tratando las 47 medidas de mi altura y las 52 medidas de la altura de mi esposa, cada una como una observación independiente cuando en realidad obviamente no lo son.

Este es un ejemplo atroz, pero entiendes la idea.

Imagine que es una startup joven y quiere saber si el rediseño de su sitio produce mejores clics o conversiones o lo que sea. Por lo tanto, recopila algunos datos en una prueba A / B y descubre que el rediseño es excelente y ofrece mejores tasas de clics. ¡Hurra! ¡Trae la Serie A!

Pero espera.

Profundiza en los datos y descubre que realmente solo tiene 2 direcciones IP únicas en su conjunto de datos de 1000 muestras totales en su “grupo de tratamiento”, y que la gran diferencia de CTR “causada por” el rediseño se debió a que esas dos direcciones IP llegaron de su madre y su abuela, quienes hacen clic en todo en su sitio web cada vez que lo visitan porque les encanta el nuevo y genial sitio web de su querida bebé.

Entonces, sus estadísticas le dijeron que sus 1000 impresiones en el rediseño dieron métricas enormemente mejoradas, pero en realidad no tenía 1000 impresiones, tenía 2 impresiones con muchas muestras de cada una. Lo que debe hacer es bin o promedio en IP únicas.

Sin saber esto, terminaría tomando una decisión basada en datos muy malos.

¿Puedes trabajar remotamente como científico de datos?

¿Qué debo estudiar como programador en caso de que quiera obtener un trabajo en Big Data?

¿Vale la pena hacer big data o no?

¿Cuál es el mejor programa de ciencia de datos?

¿Por qué mi computadora se inicia solo después de presionar el botón de encendido varias veces?

¿Cuál es la pregunta sin respuesta más importante sobre Quora relacionada con big data y data science?

Bradley Voytek da un gran ejemplo de experimento de observación. Pero quería proporcionar un ejemplo para experimentos controlados y enfatizar el concepto de unidades experimentales.

Primero, es importante entender qué es la verdadera replicación. La replicación verdadera requiere la replicación de unidades experimentales . La definición de una unidad experimental es la unidad a la que se aplica un tratamiento.

Por ejemplo, digamos que quiero probar el efecto de la temperatura del tamaño de los peces. Tengo 3 tanques, con 10 peces cada uno. Puse un tanque a 50 grados, otro a 60 y otro a 70.

¿Qué es la unidad experimental ? Bueno, la temperatura se aplica a los tanques, no a los peces, por lo que la unidad experimental es un tanque . Y en este experimento, no tendría replicación. ¿Qué son los peces? Son submuestras en este caso. Un análisis inadecuado y tratarlos como muestras, es decir, las unidades experimentales serían pseudoreplicación. También puede tomar múltiples medidas de cada pez (submuestras o medidas repetidas); cuando se analizan incorrectamente, también son pseudoreplicas.

Entonces, ¿cuál es la forma correcta de diseñar el experimento? Puede haber múltiples respuestas, pero en resumen, necesita más tanques . Si los tanques son limitados debido a su tamaño, use muchos tanques más pequeños con menos peces .

Si pudieras aplicar una temperatura diferente a cada pez en un tanque, entonces los peces se convierten en unidades experimentales, pero eso no es posible.

Si aún no ha leído la pseudoreplicación de Hurlbert y el diseño de experimentos ecológicos, hágalo. Él fue quien acuñó el término en primer lugar, y es un artículo extremadamente legible.

Justin Ma

More Interesting

¿Cuál es la mejor manera de medir la acción para impactar en el análisis de datos?

¿Es la ciencia de datos el fin de las estadísticas?

¿Dónde puedo encontrar proyectos de análisis de datos (o BI) en Excel para aprender?

Análisis de Big Data: como programador en C, ¿dónde comienza uno a readaptarse a tiempo parcial?

¿Cuáles son los requisitos previos para aprender Hadoop y la ciencia de datos?

Cómo aplicar la ciencia de datos a la industria energética / minera

¿Hay alguna manera de comprimir una gran cantidad de datos a un tamaño muy pequeño como en una bomba zip?

¿Qué campo debo elegir: análisis de negocios, análisis de datos, inteligencia de negocios y minería de datos?

¿Cuál es el mejor instituto para la formación en ciencia de datos en Jaipur?

¿Cuándo debemos crear un lago de datos?