¿Cuál es la mejor manera de evaluar los tiempos de respuesta de AB? La tecnología cambia la vida futura

Dado el tiempo de respuesta en horas mencionado en la pregunta, podemos usar el correo electrónico
tiempos de respuesta como un ejemplo en ejecución (por ejemplo, una oferta hecha por correo electrónico, la respuesta es
clic o compra).

Primero preguntaría cuál es el objetivo comercial o la OEC (Evaluación general
Criterio) para su prueba A / B. ¿Es el tiempo de respuesta realmente el OEC correcto?

Veamos algunos ejemplos donde hay una mejor OEC:

Como científico de datos, ¿sería prudente familiarizarme con los servicios de informes SQL?
¿Cómo es ser un científico de datos en Publicis?
¿Cuáles son las fortalezas / debilidades de los diferentes algoritmos de aprendizaje automático?
Con respecto a la infraestructura de big data, ¿cuáles son las soluciones más comunes?
¿Completan los siguientes dos certificados en ciencia de datos lo suficiente como para ser competitivos para un trabajo de aprendizaje automático si estoy comenzando este campo desde cero?

Hay una fecha límite, como querer que las personas se registren para un evento antes del evento. En ese caso, una mejor OEC es la tasa de respuesta antes de alguna fecha / hora (por ejemplo, X horas después del envío del correo electrónico). Realmente no le importa si las respuestas de 10 horas se reducen a 9, sino que maximiza la tasa antes de que transcurran 240 horas (por ejemplo, 10 días).
Hay una recompensa mayor a las respuestas anteriores. Por ejemplo, tal vez necesite pedir comida y cuanto antes obtenga un recuento preciso, mejor. En ese caso, la OEC debe tener en cuenta la recompensa. Por ejemplo, el valor de las respuestas anteriores antes de la fecha de pedido de alimentos valen más que las respuestas posteriores. Optimice (juzgue el A / B) directamente en su valor, no un sustituto del tiempo de respuesta.
Un pequeño porcentaje de respuestas que llegan muy tarde no son útiles (por ejemplo, dirá que el pedido expiró después de X días, pero no desea establecer X por adelantado en 30). En ese caso, debe configurar su OEC para que sea un percentil, digamos el percentil 95.
Hay problemas de datos y, a veces, tiene valores atípicos, pero no desea “tirarlos” como en el n. ° 3. En ese caso, limite los valores. Cualquier cosa sobre 240 horas se establece en 240 horas.

Suponiendo que lo anterior no se cumple y tiene una buena razón para mirar los tiempos de respuesta, o tal vez no sea la OEC, sino una de las métricas que está buscando para la depuración o como una métrica de barandas en una prueba A / B. ¿Cómo lo agregarías?

Generaría algunas métricas de percentil (# 3 arriba con 95, 75 y 50 o mediana, que Michael Hochster mencionó) y / o una métrica limitada (# 4). Luego puede “depurar” algunos puntos clave en la distribución y ver si alguno se movió estadísticamente de manera significativa. Para calcular la varianza y los intervalos de confianza, puede arrancar, o en el caso de la media (por ejemplo, al limitar), puede asumir una distribución normal: incluso las distribuciones bastante sesgadas se distribuirán normalmente con suficientes datos debido al teorema del límite central.

No aplicaría transformaciones de registro (una recomendación estadística clásica) a menos que realmente desee optimizar el registro de tiempos de respuesta.