Hay dos enfoques básicos, y descubrí que si bien el más intensivo en mano de obra parece ser más sólido, en la gran mayoría de los casos son bastante iguales.
1. La forma intensiva en mano de obra. Puedes crear grupos consistentes. Vincula su aleatorización a algún tipo de indicador que puede procesar fácilmente, como un personaje en una determinada posición en una cookie. Según este indicador, aquellos con números impares serán A e incluso B (puede hacer más complicado, por supuesto). Algo a lo largo de esa línea se puede ejecutar.
2. No lo abordas en absoluto. ¿No crearía eso un problema con la consistencia de la prueba? Más o menos, ya que al mismo cliente se le puede mostrar A o B en diferentes ocasiones. Sin embargo, estás haciendo la pregunta equivocada. La pregunta correcta es si esta inconsistencia invalida los resultados de la prueba, y la respuesta es: generalmente no. Eso es porque los grupos siguen siendo representativos. Ejemplo: A es el 80% de los visitantes y B es el 20%. De los que tuvieron dos visitas y se les mostró A en la segunda, ¿qué porcentaje se les mostró A en la primera? 80% Ahora, de aquellos que tuvieron dos visitas y se les mostró B en la segunda, ¿qué porcentaje se les mostró A en la primera? 80% Por lo tanto, sus grupos en la primera visita siguen siendo representativos y puede compararlos libremente. Sus grupos en la primera visita son representativos de forma predeterminada, por lo que puede combinarlos y seguir teniendo grupos representativos. ¿Alguna vez fallará ese principio? Sí, pero muy raramente. Puede hacer un argumento teórico de que A-> B es mejor que B-> B o A-> A, en cuyo caso los grupos dejan de ser representativos. Nunca he visto un caso como ese confirmado por los datos en la vida real, y la diferencia en el resultado debe ser muy grande para introducir un sesgo detectable.
- Cómo convertirse en un científico de datos, sin las habilidades necesarias
- Cómo aplicar la ciencia de datos a la industria energética / minera
- ¿Qué es el analista de datos? ¿Qué él ha hecho?
- ¿Existe una definición de "Big" en el contexto de "Big Data"? ¿Cuál es exactamente el significado de "Big" desde el punto de vista de la ciencia de datos?
- Como científico de datos, ¿cuáles son sus debilidades?
Por lo tanto, mi recomendación es ahorrarse un poco de esfuerzo e ir con el método # 2.