¿Cuál es la mejor manera de evaluar los tiempos de respuesta de AB?

Dado el tiempo de respuesta en horas mencionado en la pregunta, podemos usar el correo electrónico
tiempos de respuesta como un ejemplo en ejecución (por ejemplo, una oferta hecha por correo electrónico, la respuesta es
clic o compra).

Primero preguntaría cuál es el objetivo comercial o la OEC (Evaluación general
Criterio) para su prueba A / B. ¿Es el tiempo de respuesta realmente el OEC correcto?

Veamos algunos ejemplos donde hay una mejor OEC:

  1. Hay una fecha límite, como querer que las personas se registren para un evento antes del evento. En ese caso, una mejor OEC es la tasa de respuesta antes de alguna fecha / hora (por ejemplo, X horas después del envío del correo electrónico). Realmente no le importa si las respuestas de 10 horas se reducen a 9, sino que maximiza la tasa antes de que transcurran 240 horas (por ejemplo, 10 días).
  2. Hay una recompensa mayor a las respuestas anteriores. Por ejemplo, tal vez necesite pedir comida y cuanto antes obtenga un recuento preciso, mejor. En ese caso, la OEC debe tener en cuenta la recompensa. Por ejemplo, el valor de las respuestas anteriores antes de la fecha de pedido de alimentos valen más que las respuestas posteriores. Optimice (juzgue el A / B) directamente en su valor, no un sustituto del tiempo de respuesta.
  3. Un pequeño porcentaje de respuestas que llegan muy tarde no son útiles (por ejemplo, dirá que el pedido expiró después de X días, pero no desea establecer X por adelantado en 30). En ese caso, debe configurar su OEC para que sea un percentil, digamos el percentil 95.
  4. Hay problemas de datos y, a veces, tiene valores atípicos, pero no desea “tirarlos” como en el n. ° 3. En ese caso, limite los valores. Cualquier cosa sobre 240 horas se establece en 240 horas.

Suponiendo que lo anterior no se cumple y tiene una buena razón para mirar los tiempos de respuesta, o tal vez no sea la OEC, sino una de las métricas que está buscando para la depuración o como una métrica de barandas en una prueba A / B. ¿Cómo lo agregarías?

Generaría algunas métricas de percentil (# 3 arriba con 95, 75 y 50 o mediana, que Michael Hochster mencionó) y / o una métrica limitada (# 4). Luego puede “depurar” algunos puntos clave en la distribución y ver si alguno se movió estadísticamente de manera significativa. Para calcular la varianza y los intervalos de confianza, puede arrancar, o en el caso de la media (por ejemplo, al limitar), puede asumir una distribución normal: incluso las distribuciones bastante sesgadas se distribuirán normalmente con suficientes datos debido al teorema del límite central.

No aplicaría transformaciones de registro (una recomendación estadística clásica) a menos que realmente desee optimizar el registro de tiempos de respuesta.

Dibujaría diagramas de diagnóstico como histogramas o diagramas de probabilidad normal para tratar de determinar cuáles son los modelos razonables para usar. Si no puede decidir, puede usar un Mann-Whitney, o alguna otra prueba no paramétrica.

Los tiempos no pueden ser negativos y, a menudo, tienen colas largas, por lo que tratarlos normalmente es una mala idea. Es posible que desee tomar registros primero. Por la misma razón, la media puede ser una estadística resumida engañosa. La media o la media geométrica podrían ser mejores. Buena suerte.