¿Cuánto tiempo debe ejecutar una prueba A / B en su sitio antes de declarar a uno ganador?

Esta pregunta tiene límites inferiores comunes, una respuesta simple que es teóricamente correcta, pero puede confundirlo, y un conjunto de trampas que debe tener en cuenta.

Los límites inferiores: los experimentados experimentadores prácticos a menudo brindan orientación, como “al menos usuarios X” o “al menos conversiones Y”. Por ejemplo:

El agradable modelo ROAR de Ton Wesseling se refiere a 1,000 conversiones / mes para comenzar las optimizaciones ([CXL Live 16] ¿Cómo utilizar su capacidad de prueba? Por Ton Wesseling, diapositiva 21)
En Experimentos controlados a gran escala, escribimos “nuestra guía general es al menos miles de usuarios activos”

Al ir por debajo de estos límites inferiores, es probable que se infrinjan muchos supuestos en la práctica, y los resultados no serán confiables, por lo que no debe comenzar su programa de Pruebas de AB. Si está trabajando con una pequeña agencia ávida de dinero, podrían presentar números más bajos que vienen con menor confianza. Recuerde siempre que “Obtener números es fácil; es difícil obtener números en los que pueda confiar ”(http://bit.ly/expPracticalLessons).

La regla general es, por supuesto, mal visto por las personas que tomaron las estadísticas 101. Señalan que debe observar la varianza de la métrica y decidir sobre la sensibilidad, y tienen razón, excepto que lo anterior es útil límite inferior: no te molestes si tienes un pequeño sitio web.

La respuesta teórica es: use la fórmula estadística de potencia (o elija una de las muchas calculadoras de potencia en la web). Por ejemplo, en Experimentos controlados en la web: Encuesta y guía práctica, tiene lo siguiente:

… Suponiendo que el nivel de confianza deseado es del 95% y la potencia deseada es del 80% (van Belle 2002, p. 31) la fórmula a utilizar es

[matemáticas] n = 16σ ^ 2 / delta ^ 2 [/ matemáticas]

donde n es el número de usuarios en cada variante y se supone que las variantes son de igual tamaño, σ ^ 2 es la varianza de la OEC [métrica de interés], y delta es la sensibilidad o la cantidad de cambio que desea detectar.
La sección 3.2.1 del documento muestra algunos ejemplos con números prácticos. Un punto clave a tener en cuenta es que la métrica de interés es muy importante. La optimización de los ingresos en el ejemplo condujo a 409,000 usuarios. La optimización para las conversiones (una métrica de menor varianza) requiere solo 122,000 usuarios (6,100 conversiones).

¿Cuándo es engañosa la respuesta teórica?

La OEC, o Criterio de evaluación general, no se tiene debidamente en cuenta.
Uno de los mayores errores que puede cometer es ejecutar un experimento que intente mejorar una métrica local que sea fácil de mover (baja variación), sin verificar que no haya degradado otras métricas clave.
Como ejemplo, si está modificando un widget en la página (por ejemplo, “vea nuestro video en foobar”) y está probando un aumento en los clics para ese widget, puede estar degradando una métrica mucho más importante como ingresos sin darse cuenta. Incluso si está viendo los ingresos como una métrica de la barandilla, si el cálculo de potencia se realizó para el widget, puede ser incorrecto para la métrica de la barandilla: los ingresos requieren muchos más usuarios para una potencia estadística suficiente. ¡Su prueba puede considerar que los ingresos son “planos” porque tienen poca potencia!
Asegúrese de calcular el número mínimo de usuarios como el máximo de lo que la fórmula de energía le indica para diferentes métricas.
Aquí hay un ejemplo real de un experimento con poca potencia en Bing que no se enviará sin ser encendido primero, a pesar del hecho de que podría generar decenas de millones de dólares:

Los ingresos por usuario han aumentado mucho y son altamente estadísticos (el valor p es <1e-13).
¿El problema? Una métrica que indica el dolor del usuario, que es un componente clave de nuestro OEC, es plana, pero el experimento tiene poca potencia y el valor p es de aproximadamente 0,11 con un significado negativo. Bandera roja.

Está bien realizar pequeños experimentos para la ideación, pero nunca se pueden enviar sin antes estar lo suficientemente encendidos. Demasiados experimentos muestran que podemos aumentar los ingresos a corto plazo, pero estaremos perjudicando a los usuarios a largo plazo si no prestamos atención a la OEC y potenciamos suficientemente los experimentos.

[Quora amigos, es difícil seguir numerando en su editor.]
La matemática asume un horizonte fijo, es decir, usted prueba una vez al final del período. No pare temprano porque algo es estadísticamente significativo. Este es un error común que aparece en algunos de los mejores libros sobre Pruebas AB (ver ConversionXL AB Pitfalls slide 20, pitfall # 6).
Eche un vistazo a Optimizely: Optimizely Stats Engine.
Muchos de los supuestos clásicos pueden no ser válidos.

Para métricas sesgadas, eche un vistazo a las Siete Reglas prácticas para experimentadores de sitios web, Regla # 7.
La fórmula de potencia asume un valor métrico estacionario. Trace la métrica (p. Ej., Conversiones) y notará que no es estacionaria.
Por lo general, varía a lo largo del día. ¿Puede ser diferente durante el fin de semana?
¿Es la métrica homoscedastic (misma variación en el tiempo)? Trace la métrica a lo largo del tiempo para verificar esto

Bots y valores atípicos. Los bots deben filtrarse porque podrían introducir grandes sesgos. Dependiendo de su dominio, puede haber valores atípicos por otros motivos. Por ejemplo, en Amazon, un comprador institucional en una de las variantes que hace un pedido enormemente grande podría sesgar todo el resultado. Introdujimos recortar / tapar para lidiar con eso.
¿Está interesado en segmentar sus datos después? ¿Mirando el escritorio frente al móvil? ¿Quizás segmentación por navegadores? Necesitará más usuarios, lo que significa ejecutar el experimento por más tiempo o (mejor) a porcentajes mayores.
Validez externa: tenga cuidado de realizar experimentos durante vacaciones o eventos únicos. La publicidad de los huevos cuando la prueba se superponga en Pascua se verá bien, o escribir “Regístrese ahora, debería” en el día de Star Wars (el 4 de mayo [esté con usted]) puede funcionar bien durante el experimento (Ronny Kohavi en Twitter) pero falla más tarde períodos. La replicación es clave.
Interpretación errónea del valor p. La fórmula de potencia le da potencia para el valor p, lo que supone que la hipótesis nula es verdadera. Vea https://bit.ly/CODE2015Kohavi slide 7 para ver un ejemplo real donde el 99.6% del tiempo, un movimiento de sig-sig con valor p = 0.05 está mal.
Novedad (novedad) y efectos de primacía. Estos son efectos opuestos que a veces impactan en los experimentos. El efecto de primacía ocurre cuando cambia la navegación en un sitio web, y los usuarios experimentados pueden ser menos eficientes hasta que se acostumbren a la nueva navegación, lo que le da una ventaja inherente al Control. Por el contrario, cuando se introduce un nuevo diseño o característica, algunos usuarios investigarán la nueva característica, harán clic en todas partes y, por lo tanto, introducirán un sesgo de “novedad” que desaparecerá rápidamente si la característica no es realmente útil. Este sesgo a veces se asocia con el efecto Hawthorne. La mejor manera de buscar estos efectos es observar el delta entre control y tratamiento a lo largo del tiempo y ver si hay una tendencia clara. Tenga cuidado con el uso de gráficos acumulativos (Sección 3.3 en Cinco resultados desconcertantes explicados). Vea el bonito artículo de Henning Hohnhold, Deirdre O’Brien y Diane Tang: Focus on the Long-Term: It’s better for Users and Business.
Tiempo de aceleración y la paradoja de Simpson. La fórmula de potencia estadística para la duración asume un estado estable. En la práctica, los experimentos iniciales pueden lanzarse a un pequeño porcentaje de usuarios, y el porcentaje aumenta con el tiempo (aumento gradual) cuando no se detectan problemas atroces. Tenga cuidado con la paradoja de Simpson que ocurre cuando intenta combinar períodos con diferentes porcentajes: consulte http://bit.ly/expPitfall Sección 6.
En los experimentos en línea, no todos los usuarios se unen al mismo tiempo. Por ejemplo, Sesiones / Usuario está aumentando monotónicamente para cada usuario, pero la combinación de usuarios que se unieron antes y los que admitieron más tarde complica la distribución, y ejecutar el experimento por más tiempo no ayuda. Ver cinco resultados desconcertantes explicados en la sección 3.4 sobre la duración del experimento y el poder estadístico.

Si bien lo anterior puede parecer complicado, en la práctica, la respuesta a menudo es simple después de haber realizado algunos experimentos y conocer las variaciones clave. Por ejemplo, en Bing US, la regla es:

Ejecute al 10% durante una semana si su función afecta a la mayoría de los usuarios.
Si disparas a una subpoblación que está por debajo del 20%, corre al 20% durante una semana.
Si sospecha que tiene efectos novedosos (los usuarios necesitan tiempo para adoptar), corra durante dos semanas y mire los gráficos a lo largo del tiempo
En caso de duda (resultados extraños, difíciles de creer), vuelva a ejecutar (replicación) y maximice la potencia (cerca del 50% / 50%) durante dos semanas.

Recuerde que a pesar de todas las desventajas y dificultades, le irá mucho mejor que el HiPPO con experimentos A / B (¿Qué es un HiPPO?).

Gracias Xavier Amatriain en Twitter por escribir “Gran respuesta. Realmente vale la pena leerlo “. Y Monica Rogati en Twitter por escribir” Mi primera reacción fue ‘dos semanas’, lo descarté como simplista, resulta que ese es el tl; dr “.
Gracias Michael Hochster por sugerir un punto explícito sobre los efectos de novedad, y Ya Xu por sugerir que esto se refiere al estado estable después de la aceleración.

¿Cómo diferenciará el campo de análisis predictivo y ciencia de datos?

¿Cuál es el panorama del big data en 2016?

¿Qué es el suavizado de datos y cómo puedo usarlo en ciencia de datos / minería?

¿Cuál es el propósito principal del análisis de datos?

¿Por qué necesitamos una matriz de confusión en la minería de datos?

¿Qué es TE en MPLS?

¡Esa es una excelente pregunta!

Hay 2 aspectos para esta respuesta:

Estadísticamente significativo : SIEMPRE tiene que esperar hasta que los resultados de su prueba sean estadísticamente significativos. La importancia se puede medir de acuerdo con la tasa de conversión de grupo predeterminada (lo que sea que la conversión signifique en esa prueba) y su KPI (% de cambio entre su resultado predeterminado y los resultados de la prueba). Cuanto menor sea su conversión o KPI, los probadores que necesita (por lo tanto, más tiempo tendrá que esperar). Hay muchas calculadoras que le mostrarán qué tan grande debe ser su grupo de evaluadores, el que estoy usando es este: Optimizely: Optimice las experiencias digitales para sus clientes. Además, incluso si sus resultados son significativos muy rápido, probablemente debería ejecutar la prueba durante al menos una semana para asegurarse de que sea constante.
Pruebe las variantes : ahora la pregunta clave es si una mayor conversión siempre significa una victoria. bien…. no necesariamente Imagine que está haciendo una prueba AB en su página de pagos, y su versión probada se convierte mejor en un 10% que la versión predeterminada, lo que significa que se realizan un 10% más de transacciones, pero cada transacción es un 20% menor en volumen (lo que significa que están pagando menos por cada trato). ¿Cuál es mejor? ya no es tan fácil responder … La esencia es que no siempre una métrica es suficiente para juzgar y debe usar tantas variantes como sea posible para tomar la mejor decisión informada.

Trabajo en una empresa de herramientas de gestión de proyectos SaaS llamada el lunes, tenemos una herramienta interna desarrollada internamente llamada BigBrain que utilizamos para recopilar datos para ser utilizados por todos nuestros departamentos y para administrar nuestras pruebas AB.

Evaluamos AB TODO , y la identidad del ganador se decide de acuerdo con una combinación de la mejor tasa de conversión, el MRR (cuál es el ingreso mensual recurrente que produjo la versión) y la recaudación (cuánto dinero real produjo esta versión). Usar la combinación de los 3 nos ayuda a tomar las mejores decisiones para nuestro producto.

Pauline Majer

El contexto importa más que cualquier número individual. Como implicaba Sparsh Gupta, es mucho más importante que su información sea representativa que cuál es el número. 5 o 5000 conversiones por grupo de prueba no le dan una respuesta significativa si no son representativas. Algunos sitios obtienen 20k conversiones al día, pero eso no significa que solo esa muestra sea representativa de su sitio general. El tráfico del lunes no se comporta igual que el del sábado. Debe dar suficiente tiempo y contexto para obtener una muestra de datos que sea representativa del comportamiento regular de sus sitios. Comprender el contexto de las herramientas que utiliza es mucho más importante que confiar únicamente en cualquier medida estadística.

Cosas a tener en cuenta: naturaleza representativa de sus datos, la normalización de sus datos y la representación del comportamiento a corto y largo plazo, cuánta diferenciación (necesita mucha menos información para un cambio del 20% que para un cambio del 4%), variación normal de su sitio (el 90% de los sitios tienen razón al 2% con suficientes datos, por lo que puede usar eso si no está seguro). Una vez que tenga TODO eso, puede evaluar una prueba estadística con suficiente información para aprovechar sus respuestas a la luz de los supuestos que conforman ese modelo.

Es fácil hacer que parezca que todo lo que necesita son datos X con confianza Y, pero la recopilación de datos del mundo real y los cambios en la dinámica de las poblaciones significan que hay mucho que entender antes de confiar demasiado en modelos estadísticos simples.

Aviram Gabay

Ok, en primer lugar, no siempre puedes declarar un ganador. Muchos (probablemente la mayoría) de los experimentos no tienen mucho efecto. Si su experimento se ramifica en los usuarios (y debería serlo si tiene esa capacidad) y no en visitas, entonces es posible que nunca vea un resultado estadísticamente significativo. Incluso si finge que todas las visitas a su sitio son independientes, existen tamaños de efectos que tardarán años en detectarse. No vas a estar dispuesto a esperar tanto tiempo para obtener resultados, y si lo estás, las personas con las que reportas probablemente no estarán dispuestas a esperar tanto por ti. Decisiones en ind

El primer paso es averiguar qué tamaño de movimientos métricos desea poder detectar. Luego puede usar datos históricos de manera directa para predecir el poder de un experimento para una longitud y fracción de la población. Esto se debe a que la mayoría de los experimentos no cambian la varianza de los datos lo suficiente como para afectar realmente los intervalos de confianza. Por lo tanto, puede calcular los intervalos de confianza al construir un experimento falso con datos históricos y calcular barras de error. Si está ramificando en los usuarios (y de nuevo, debería estarlo), encontrará que agregar usuarios a un experimento disminuye las barras de error mucho más rápido que aumentar la duración, pero esas son compensaciones que debe hacer usted mismo. Al final de este cálculo, puede que tenga que ajustar su definición de qué tamaños. Tal vez desee saber si su experimento mueve los ingresos en un 1%, pero el experimento más grande que puede realizar tomaría dos años para reducir tanto sus intervalos de confianza. Luego debe decidir si puede vivir con barras de error más amplias o tal vez que no valga la pena ejecutar el experimento.

Hay un segundo aspecto más difuso del diseño del experimento que es cómo dar cuenta de los efectos de novedad. Los usuarios expuestos a un tratamiento el primer día pueden comportarse de manera diferente que el día cien. Los tamaños del efecto pueden disminuir o aumentar. Cómo saber cuándo se estabilizó un experimento es difícil. Es posible que le falte una descomposición muy lenta en efecto. Nuevamente, tendrá que decidir cuánto tiempo está dispuesto a esperar. Perder un efecto a largo plazo siempre es posible. Si está realmente preocupado, puede dejar de lado a un pequeño grupo como reserva y controlarlos durante mucho más tiempo. He visto retenciones correr años.

Entonces, teniendo en cuenta los efectos de novedad y el ruido experimental inherente, establece una duración y ejecuta su experimento. ¿Qué haces si no ves significación estadística? Te encoges de hombros y simplemente escoges algo. Si obtuviste las barras de error que querías, entonces sabes que la elección no importa tanto. Si no pudo obtener esas barras de error, aún sabe que el tamaño del efecto no es enorme y ejecutar el experimento por más tiempo es más costoso que la ganancia potencial de conocimiento. Así es como a veces funciona la experimentación.

Una cosa que definitivamente no debes hacer es planear ejecutar un experimento hasta que veas un efecto estadísticamente significativo. Primero, como dije, esto puede nunca suceder. En segundo lugar, sus intervalos de confianza le mentirán porque esencialmente está ejecutando muchos experimentos simultáneamente (aunque sean muy relacionados). Elija un límite de tiempo y evalúe al final. La mayoría de los experimentos tienen la forma de un cambio potencial en el sitio. Si los resultados iniciales son muy malos, puede estar bien simplemente matar tales experimentos. Ya no estás ejecutando un experimento adecuado, pero tal vez no necesites hacerlo en ese momento, y esto ahorrará a tus usuarios una agonía innecesaria. Nunca haría lo mismo con un experimento increíblemente bueno. Es probable que sus datos tengan errores (comience a excavar), o el efecto no durará, y debe tener la ciencia adecuada para respaldar los mejores cambios.

Una última advertencia es que hay ajustes estadísticos que puede hacer para obtener una tasa correcta de falsos positivos en un experimento de “corra hasta que obtenga importancia”. Si su aplicación se beneficiaría de ese tipo de cosas, debería investigarla eventualmente. Sin embargo, comenzaría por entender los conceptos básicos primero.

Aviram Gabay

Esa es una excelente pregunta.

Hay 2 aspectos para esta respuesta:

Estadísticamente significativo : SIEMPRE tiene que esperar hasta que los resultados de su prueba sean estadísticamente significativos. La importancia se puede medir de acuerdo con la tasa de conversión de grupo predeterminada (lo que sea que la conversión signifique en esa prueba) y su KPI (% de cambio entre su resultado predeterminado y los resultados de la prueba). Cuanto menor sea su conversión o KPI, los probadores que necesita (por lo tanto, más tiempo tendrá que esperar).
Hay muchas calculadoras que le mostrarán qué tan grande debe ser su grupo de evaluadores, el que estoy usando es este: Optimizely: Optimice las experiencias digitales para sus clientes.
Además, incluso si sus resultados son significativos muy rápido, probablemente debería ejecutar la prueba durante al menos una semana para asegurarse de que sea constante.
Pruebe las variantes : ahora la pregunta clave es si una mayor conversión siempre significa una victoria. bien…. no necesariamente Imagine que está haciendo una prueba AB en su página de pagos, y su versión probada se convierte mejor en un 10% que la versión predeterminada, lo que significa que se realizan un 10% más de transacciones, pero cada transacción es un 20% menor en volumen (lo que significa que están pagando menos por cada trato). ¿Cuál es mejor? ya no es tan fácil responder …
La esencia es que no siempre una métrica es suficiente para juzgar y debe usar tantas variantes como sea posible para tomar la mejor decisión informada.

Trabajo en una empresa de herramientas de gestión de proyectos SASS llamada dapulse , tenemos una herramienta interna desarrollada internamente llamada BigBrain que utilizamos para recopilar datos para ser utilizados por todos nuestros departamentos y para administrar nuestras pruebas AB. Evaluamos AB TODO , y la identidad del ganador se decide de acuerdo con una combinación de la mejor tasa de conversión, el MRR (cuál es el ingreso mensual recurrente que produjo esa versión) y la recaudación (cuánto dinero real produjo esta versión). Usar la combinación de los 3 nos ayuda a tomar las mejores decisiones para nuestro producto.

Aquí hay un ejemplo de uno de nuestros embudos a través de BigBrain:

Emils Veveris

Necesitarás dos datos:

El número de resultados que recibió la página de resultados de búsqueda en el período de un mes antes de comenzar la prueba.
El número de conversiones que ocurrieron en el período de un mes antes de comenzar la prueba. Supongo que en su caso particular, una conversión es un clic en un resultado de búsqueda o un anuncio.

Una vez que tenga estos dos números, puede conectarlos a esta calculadora para obtener un resultado: ¿Cuánto tiempo durará mi prueba A / B?

Nota:

En realidad no explica en esa calculadora, pero “MDE” significa “Efecto mínimo detectable”.

Básicamente, si el nuevo diseño de la página de búsqueda solo produce un pequeño cambio en la tasa de conversión en comparación con la página anterior, entonces tendrá que ejecutar la prueba durante más tiempo para obtener un resultado significativo.

Emils Veveris

Te daré una respuesta simplificada, pero ligeramente diferente.

Si bien hay otras cosas importantes a considerar además del tiempo para garantizar la validez de su prueba (como muchos ya señalaron en sus respuestas):

Tamaño de la muestra
Representante de la muestra
Poder estadístico y significación estadística (confianza)
Y más (lea a continuación).

Todo depende de la cantidad de datos disponibles (tráfico mensual, transacciones, conversiones), peculiaridades de su negocio específico (compras / ciclos comerciales, estacionalidad, etc.) y su estrategia general de prueba A / B (qué está tratando de lograr con Prueba A / B).

Sin embargo, supongo que la mayoría de los lectores están más interesados en simplemente encontrar ganadores, mejorar significativamente sus tasas de conversión (y lo que es más importante, en obtener ganancias) en lugar de ser profundamente científicos.

Si estoy en lo correcto, este enfoque simple que describiré a continuación (cuando se trata del tiempo) debería funcionar bien para usted.

1. Ejecútelo al menos durante 7 días (una semana completa o un ciclo comercial completo (para algunas empresas puede durar más de 7 días), por ejemplo, para productos más caros, la decisión de compra generalmente no se toma en unos pocos días )

Esta debería ser su línea de base, cualquier cosa debajo de eso será cuestionable porque la tasa de conversión fluctúa todos los días, pero es más probable que siga una tendencia (por ejemplo, la tasa de conversión es mayor los fines de semana).

Cualquier cosa por encima de eso comenzará a consumir los costos de oportunidad.

2. Si el resultado es negativo : la variante alternativa se está perdiendo, detenga la prueba después de 7 días.

3. Si el resultado no es concluyente , sin diferencias estadísticamente significativas, suspenda la prueba después de 7 días.

4. Si la nueva variante está ganando , ejecútela durante otros 7 días, solo para estar seguro.

La idea básica detrás es que su mejor apuesta (probablemente) para mejorar sus conversiones y su resultado final es ejecutar un ciclo de pruebas, encontrar ganadores y apilarlos unos sobre otros. Es difícil obtener resultados sostenibles con solo unos pocos intentos.

Y si una prueba en particular no muestra signos de ser una victoria significativa después de los primeros 7 días, entonces es muy improbable que las cosas cambien si continúa ejecutándola por más tiempo. Mátalo y pasa al siguiente.

Si necesita más tiempo para alcanzar el tamaño de muestra necesario (no tiene suficiente tráfico y conversiones mensuales), entonces quizás aún no esté listo para las pruebas A / B. Será realmente desafiante obtener un ROI sólido de sus esfuerzos de prueba.

Importante tener en cuenta

Como ya escribimos yo y otros, hay mucho más de qué preocuparse que solo el tiempo para garantizar que sus pruebas A / B no solo sean válidas sino también exitosas.

Lea más descripciones en profundidad:

¿Pensando en las pruebas A / B para su cliente? Leé esto primero
Cómo elegir la estrategia de prueba A / B adecuada para sus clientes

Aviram Gabay

Si está haciendo una prueba clásica, con un número predefinido de usuarios, entonces usaría la potencia estadística deseada para determinar el tamaño de muestra necesario, luego haría una sola observación al final de la prueba y terminaría con ella. .

Sin embargo, en la mayoría de los entornos prácticos, esto no es lo que sucede, ya que las personas, naturalmente, quieren poder examinar la prueba a medida que reúne datos y sacar conclusiones lo antes posible. Esto te pone en territorio de prueba secuencial. En este caso, necesita una regla para detener la inutilidad que se aborda en el paradigma frecuentista mediante límites de detención de la inutilidad. Se construyen en función de la potencia predefinida, la significación estadística y el cambio mínimo que desearía poder detectar.

Puede ver una explicación más detallada sobre cómo funciona y
http://blog.analytics-toolkit.co …

Si la matemática detrás de la detención de la futilidad es de interés, entonces esta es una buena lectura: http://citeseerx.ist.psu.edu/vie …

Don van der Drift

Recientemente escribí en un blog sobre esta misma pregunta. No se deje engañar con falsos positivos cuando realice pruebas AB | Ometrics

La publicación tiene explicaciones para las siguientes pautas.

Directrices de prueba de optimización de conversión AB

Siempre ejecute una prueba de confianza estadística del 90% o más. Tenga en cuenta que los diferentes sistemas de prueba AB utilizan algoritmos diferentes, como chi cuadrado, puntaje z y derivados de estos. Esto significa que hay una variación al comparar datos entre diferentes sistemas de prueba, pero si está probando por encima del 90%, está bien.
Realice siempre una prueba durante al menos siete días, incluso si tiene un ganador estadístico antes. Esto tendrá en cuenta la publicidad, las personas de usuario y las variantes de dispositivo de usuario. Por supuesto, esto también depende de la cantidad de tráfico y conversiones que esté obteniendo. No es inusual ejecutar una prueba en una página que tiene un volumen bajo de miles de visitantes durante un mes.
Busque la tasa de conversión acumulativa de las variantes de prueba en comparación con el control y vea si las líneas se cruzan o son consistentemente superiores o inferiores.
> Por encima del control : muy probablemente un levantamiento sólido
> Cruzando el control : la prueba aún no ha seguido su curso y no es estadísticamente precisa
> Por debajo del control y no va a ser positivo : lo más probable es que sea una elevación negativa, este tipo de variante se puede detener antes para acelerar las pruebas.
Verifique los datos por dispositivo. A menudo, los dispositivos pueden cancelar los resultados de los demás. Una computadora de escritorio puede tener un resultado positivo, pero el móvil no, lo que hace que la conversión total no sea tan buena como podría ser. Esto también le indica que solo se necesitan pruebas móviles.
Tenga en cuenta otros factores durante su período de prueba, como vacaciones, cambios en la campaña publicitaria, elevaciones en el tráfico debido a otras iniciativas corporativas.
Hacer una prueba A / A puede ayudar a determinar la duración de la prueba y la elevación de conversión mínima.
Si no está seguro de que no duele continuar ejecutando la prueba a menos que los resultados sean insignificantes.

Emils Veveris

Deberías haber decidido esto antes de realizar la prueba. Lo ideal es ejecutar un piloto para tener una idea de la varianza y realizar un análisis de potencia (como un ANOVA a la inversa) para determinar cuántos participantes necesitarías para lograr importancia.

De lo contrario, puede obtener una estimación de estudios similares anteriores. Aparte de eso, son conjeturas.

La prueba no se trata solo de cuál es el ganador: puede que no haya diferencia entre los dos. Esto significa que no debes correr hasta que alcances importancia.

El objetivo de una prueba de significación es que si un resultado no es significativo, deduce que no hay diferencia (cualquier diferencia observada es lo suficientemente pequeña como para atribuirse al azar). Las pruebas de significación no se refieren a “cuál es mejor”. Se refieren a “¿A es mejor que B, B es mejor que A o no hay una diferencia real?”

Don van der Drift

La respuesta simplificada es 100 conversiones en cada variación combinada con tiempo suficiente para representar a toda su audiencia. Entonces, como dijo Sparsh Gupta, asegúrese de tener suficientes datos para representar a su audiencia.

Aviram Gabay

Todo depende de la significación estadística. Como regla general, me gusta tener al menos 50 puntos de datos (25 para A, 25 para B). Si tiene una página web con mucho tráfico, puede obtener este resultado en cinco minutos. Para una página menos popular, puede llevar dos semanas.

Lo principal es que necesita tener suficientes datos para poder elegir con confianza una prueba sobre la otra, y no tener los resultados arrojados por algunas casualidades.

Aviram Gabay

La importancia es muy importante, pero aparte de esto, debe considerar la variación en su tráfico. Muchos sitios web obtienen tráfico ligeramente diferente los fines de semana / días festivos / noches, por lo que para concluir algo genérico, asegúrese de haberlos incluido a todos. es decir, realizar una prueba de lunes a miércoles podría darle una buena importancia, pero los resultados podrían no hacer feliz el tráfico que llega el domingo.

Don van der Drift

Hacer una prueba durante al menos 1 semana o 7 días y hasta que tenga al menos un 95% de probabilidad de encontrar al ganador es una buena idea. También puede considerar ejecutar pruebas hasta que llegue a 100 conversiones como mínimo.