Al hacer una prueba A / B sobre la tasa de conversión (proporción de visitas que incluyen una compra), ¿cómo abordo el hecho de que no todas las visitas son independientes?

Hay dos enfoques básicos, y descubrí que si bien el más intensivo en mano de obra parece ser más sólido, en la gran mayoría de los casos son bastante iguales.

1. La forma intensiva en mano de obra. Puedes crear grupos consistentes. Vincula su aleatorización a algún tipo de indicador que puede procesar fácilmente, como un personaje en una determinada posición en una cookie. Según este indicador, aquellos con números impares serán A e incluso B (puede hacer más complicado, por supuesto). Algo a lo largo de esa línea se puede ejecutar.

2. No lo abordas en absoluto. ¿No crearía eso un problema con la consistencia de la prueba? Más o menos, ya que al mismo cliente se le puede mostrar A o B en diferentes ocasiones. Sin embargo, estás haciendo la pregunta equivocada. La pregunta correcta es si esta inconsistencia invalida los resultados de la prueba, y la respuesta es: generalmente no. Eso es porque los grupos siguen siendo representativos. Ejemplo: A es el 80% de los visitantes y B es el 20%. De los que tuvieron dos visitas y se les mostró A en la segunda, ¿qué porcentaje se les mostró A en la primera? 80% Ahora, de aquellos que tuvieron dos visitas y se les mostró B en la segunda, ¿qué porcentaje se les mostró A en la primera? 80% Por lo tanto, sus grupos en la primera visita siguen siendo representativos y puede compararlos libremente. Sus grupos en la primera visita son representativos de forma predeterminada, por lo que puede combinarlos y seguir teniendo grupos representativos. ¿Alguna vez fallará ese principio? Sí, pero muy raramente. Puede hacer un argumento teórico de que A-> B es mejor que B-> B o A-> A, en cuyo caso los grupos dejan de ser representativos. Nunca he visto un caso como ese confirmado por los datos en la vida real, y la diferencia en el resultado debe ser muy grande para introducir un sesgo detectable.

Por lo tanto, mi recomendación es ahorrarse un poco de esfuerzo e ir con el método # 2.

More Interesting

¿Existen técnicas de ciencia de datos para un marketing masivo más efectivo?

¿Es aconsejable elegir NYU MS en ciencia de datos en lugar de NYU MS CS ya que quiero hacer un doctorado en aprendizaje automático?

¿Qué MOOCs en matemáticas y estadísticas existen para la ciencia de datos y el aprendizaje automático?

¿Cuál es el mejor beneficio de ser bueno en el lenguaje de programación Java para un científico de datos?

¿Cuál es el mejor instituto para un científico de datos en Hyderabad? ¿Por qué?

¿Hay alguna brecha de habilidades en el campo de Big Data también?

¿Cuáles son las mejores herramientas para ingenieros de datos?

¿Cómo debería un principiante aprender de un libro técnico que diga "Ciencia de datos desde cero"? ¿Debería completarlo una vez y luego volver a comprender temas complejos, o debería comprender profundamente cada tema antes de continuar y así retrasar la finalización?

¿Por qué Data Science es tan popular en los Estados Unidos pero casi inexistente en Suiza?

¿Qué se entiende por 'Los datos son el nuevo petróleo'?

Acabo de terminar algunos cursos de especialización en análisis de datos de Coursera. ¿Debo solicitar funciones de análisis de datos o prácticas para asegurar un trabajo?

¿Cómo puedo comercializar mi punto de acceso si compré un plan de Big Data?

¿Cuál es el estado actual de Julia, el lenguaje de programación?

Cómo convertirse en un científico de datos como estudiante

¿Cuál es su fuente de aprendizaje automático y noticias de ciencia de datos? ¿Por qué?