Esta pregunta tiene límites inferiores comunes, una respuesta simple que es teóricamente correcta, pero puede confundirlo, y un conjunto de trampas que debe tener en cuenta.
Los límites inferiores: los experimentados experimentadores prácticos a menudo brindan orientación, como “al menos usuarios X” o “al menos conversiones Y”. Por ejemplo:
- El agradable modelo ROAR de Ton Wesseling se refiere a 1,000 conversiones / mes para comenzar las optimizaciones ([CXL Live 16] ¿Cómo utilizar su capacidad de prueba? Por Ton Wesseling, diapositiva 21)
- En Experimentos controlados a gran escala, escribimos “nuestra guía general es al menos miles de usuarios activos”
Al ir por debajo de estos límites inferiores, es probable que se infrinjan muchos supuestos en la práctica, y los resultados no serán confiables, por lo que no debe comenzar su programa de Pruebas de AB. Si está trabajando con una pequeña agencia ávida de dinero, podrían presentar números más bajos que vienen con menor confianza. Recuerde siempre que “Obtener números es fácil; es difícil obtener números en los que pueda confiar ”(http://bit.ly/expPracticalLessons).
- ¿Qué sigue después de la regresión múltiple para la ciencia de datos?
- ¿Cuál es la mejor aplicación de recuperación de datos de la tarjeta SD para Android (Play Store)?
- ¿Cuál es la configuración recomendada para una aplicación de Big Data?
- ¿Cuáles son las cosas "imprescindibles" sobre ciencia de datos y análisis?
- ¿Cuál es el futuro de Big Data y Python?
La regla general es, por supuesto, mal visto por las personas que tomaron las estadísticas 101. Señalan que debe observar la varianza de la métrica y decidir sobre la sensibilidad, y tienen razón, excepto que lo anterior es útil límite inferior: no te molestes si tienes un pequeño sitio web.
La respuesta teórica es: use la fórmula estadística de potencia (o elija una de las muchas calculadoras de potencia en la web). Por ejemplo, en Experimentos controlados en la web: Encuesta y guía práctica, tiene lo siguiente:
… Suponiendo que el nivel de confianza deseado es del 95% y la potencia deseada es del 80% (van Belle 2002, p. 31) la fórmula a utilizar es
[matemáticas] n = 16σ ^ 2 / delta ^ 2 [/ matemáticas]
donde n es el número de usuarios en cada variante y se supone que las variantes son de igual tamaño, σ ^ 2 es la varianza de la OEC [métrica de interés], y delta es la sensibilidad o la cantidad de cambio que desea detectar.
La sección 3.2.1 del documento muestra algunos ejemplos con números prácticos. Un punto clave a tener en cuenta es que la métrica de interés es muy importante. La optimización de los ingresos en el ejemplo condujo a 409,000 usuarios. La optimización para las conversiones (una métrica de menor varianza) requiere solo 122,000 usuarios (6,100 conversiones).
¿Cuándo es engañosa la respuesta teórica?
- La OEC, o Criterio de evaluación general, no se tiene debidamente en cuenta.
Uno de los mayores errores que puede cometer es ejecutar un experimento que intente mejorar una métrica local que sea fácil de mover (baja variación), sin verificar que no haya degradado otras métricas clave.
Como ejemplo, si está modificando un widget en la página (por ejemplo, “vea nuestro video en foobar”) y está probando un aumento en los clics para ese widget, puede estar degradando una métrica mucho más importante como ingresos sin darse cuenta. Incluso si está viendo los ingresos como una métrica de la barandilla, si el cálculo de potencia se realizó para el widget, puede ser incorrecto para la métrica de la barandilla: los ingresos requieren muchos más usuarios para una potencia estadística suficiente. ¡Su prueba puede considerar que los ingresos son “planos” porque tienen poca potencia!
Asegúrese de calcular el número mínimo de usuarios como el máximo de lo que la fórmula de energía le indica para diferentes métricas.Aquí hay un ejemplo real de un experimento con poca potencia en Bing que no se enviará sin ser encendido primero, a pesar del hecho de que podría generar decenas de millones de dólares:
- Los ingresos por usuario han aumentado mucho y son altamente estadísticos (el valor p es <1e-13).
¿El problema? Una métrica que indica el dolor del usuario, que es un componente clave de nuestro OEC, es plana, pero el experimento tiene poca potencia y el valor p es de aproximadamente 0,11 con un significado negativo. Bandera roja.
- Está bien realizar pequeños experimentos para la ideación, pero nunca se pueden enviar sin antes estar lo suficientemente encendidos. Demasiados experimentos muestran que podemos aumentar los ingresos a corto plazo, pero estaremos perjudicando a los usuarios a largo plazo si no prestamos atención a la OEC y potenciamos suficientemente los experimentos.
- [Quora amigos, es difícil seguir numerando en su editor.]
- La matemática asume un horizonte fijo, es decir, usted prueba una vez al final del período. No pare temprano porque algo es estadísticamente significativo. Este es un error común que aparece en algunos de los mejores libros sobre Pruebas AB (ver ConversionXL AB Pitfalls slide 20, pitfall # 6).
Eche un vistazo a Optimizely: Optimizely Stats Engine. - Muchos de los supuestos clásicos pueden no ser válidos.
- Para métricas sesgadas, eche un vistazo a las Siete Reglas prácticas para experimentadores de sitios web, Regla # 7.
- La fórmula de potencia asume un valor métrico estacionario. Trace la métrica (p. Ej., Conversiones) y notará que no es estacionaria.
Por lo general, varía a lo largo del día. ¿Puede ser diferente durante el fin de semana? - ¿Es la métrica homoscedastic (misma variación en el tiempo)? Trace la métrica a lo largo del tiempo para verificar esto
- Bots y valores atípicos. Los bots deben filtrarse porque podrían introducir grandes sesgos. Dependiendo de su dominio, puede haber valores atípicos por otros motivos. Por ejemplo, en Amazon, un comprador institucional en una de las variantes que hace un pedido enormemente grande podría sesgar todo el resultado. Introdujimos recortar / tapar para lidiar con eso.
- ¿Está interesado en segmentar sus datos después? ¿Mirando el escritorio frente al móvil? ¿Quizás segmentación por navegadores? Necesitará más usuarios, lo que significa ejecutar el experimento por más tiempo o (mejor) a porcentajes mayores.
- Validez externa: tenga cuidado de realizar experimentos durante vacaciones o eventos únicos. La publicidad de los huevos cuando la prueba se superponga en Pascua se verá bien, o escribir “Regístrese ahora, debería” en el día de Star Wars (el 4 de mayo [esté con usted]) puede funcionar bien durante el experimento (Ronny Kohavi en Twitter) pero falla más tarde períodos. La replicación es clave.
- Interpretación errónea del valor p. La fórmula de potencia le da potencia para el valor p, lo que supone que la hipótesis nula es verdadera. Vea https://bit.ly/CODE2015Kohavi slide 7 para ver un ejemplo real donde el 99.6% del tiempo, un movimiento de sig-sig con valor p = 0.05 está mal.
- Novedad (novedad) y efectos de primacía. Estos son efectos opuestos que a veces impactan en los experimentos. El efecto de primacía ocurre cuando cambia la navegación en un sitio web, y los usuarios experimentados pueden ser menos eficientes hasta que se acostumbren a la nueva navegación, lo que le da una ventaja inherente al Control. Por el contrario, cuando se introduce un nuevo diseño o característica, algunos usuarios investigarán la nueva característica, harán clic en todas partes y, por lo tanto, introducirán un sesgo de “novedad” que desaparecerá rápidamente si la característica no es realmente útil. Este sesgo a veces se asocia con el efecto Hawthorne. La mejor manera de buscar estos efectos es observar el delta entre control y tratamiento a lo largo del tiempo y ver si hay una tendencia clara. Tenga cuidado con el uso de gráficos acumulativos (Sección 3.3 en Cinco resultados desconcertantes explicados). Vea el bonito artículo de Henning Hohnhold, Deirdre O’Brien y Diane Tang: Focus on the Long-Term: It’s better for Users and Business.
- Tiempo de aceleración y la paradoja de Simpson. La fórmula de potencia estadística para la duración asume un estado estable. En la práctica, los experimentos iniciales pueden lanzarse a un pequeño porcentaje de usuarios, y el porcentaje aumenta con el tiempo (aumento gradual) cuando no se detectan problemas atroces. Tenga cuidado con la paradoja de Simpson que ocurre cuando intenta combinar períodos con diferentes porcentajes: consulte http://bit.ly/expPitfall Sección 6.
- En los experimentos en línea, no todos los usuarios se unen al mismo tiempo. Por ejemplo, Sesiones / Usuario está aumentando monotónicamente para cada usuario, pero la combinación de usuarios que se unieron antes y los que admitieron más tarde complica la distribución, y ejecutar el experimento por más tiempo no ayuda. Ver cinco resultados desconcertantes explicados en la sección 3.4 sobre la duración del experimento y el poder estadístico.
Si bien lo anterior puede parecer complicado, en la práctica, la respuesta a menudo es simple después de haber realizado algunos experimentos y conocer las variaciones clave. Por ejemplo, en Bing US, la regla es:
- Ejecute al 10% durante una semana si su función afecta a la mayoría de los usuarios.
- Si disparas a una subpoblación que está por debajo del 20%, corre al 20% durante una semana.
- Si sospecha que tiene efectos novedosos (los usuarios necesitan tiempo para adoptar), corra durante dos semanas y mire los gráficos a lo largo del tiempo
- En caso de duda (resultados extraños, difíciles de creer), vuelva a ejecutar (replicación) y maximice la potencia (cerca del 50% / 50%) durante dos semanas.
Recuerde que a pesar de todas las desventajas y dificultades, le irá mucho mejor que el HiPPO con experimentos A / B (¿Qué es un HiPPO?).
Gracias Xavier Amatriain en Twitter por escribir “Gran respuesta. Realmente vale la pena leerlo “. Y Monica Rogati en Twitter por escribir” Mi primera reacción fue ‘dos semanas’, lo descarté como simplista, resulta que ese es el tl; dr “.
Gracias Michael Hochster por sugerir un punto explícito sobre los efectos de novedad, y Ya Xu por sugerir que esto se refiere al estado estable después de la aceleración.