¿Cuáles son algunos de los procedimientos / metodologías estadísticas comúnmente utilizados en las pruebas A / B?

Gran pregunta Hoy en día, las herramientas estándar han facilitado que las personas comiencen a ejecutar pruebas y recopilar datos sin tener que construir los modelos para interpretar esos datos. Como resultado, las pruebas se han vuelto más populares, pero muchas personas están ejecutando pruebas sin comprender completamente las estadísticas detrás de ellas.

Aquí hay un desglose de los métodos más comunes que se utilizan para los experimentos en línea:

Las pruebas A / B a menudo se usan como un término general para la experimentación en línea, pero en realidad se refieren a un tipo específico de prueba en el que dos variaciones de algo (producto, correo electrónico, publicidad, página de destino, etc.) se ofrecen al azar a usuarios distintos. o visitantes en proporciones fijas (ej .: 50% ve A, 50% ve B). El grupo de usuarios expuestos a la Variación A a menudo se usa como grupo de control, y la Variación A en sí misma es a veces la versión que existía antes de la prueba y para la cual se puede deducir una medida confiable del rendimiento de referencia a partir de los datos históricos. La Variación B, en este caso, es la nueva versión y su rendimiento se mide con respecto a la línea de base utilizando las siguientes métricas:

  1. Tasa de conversión observada (CvR) para cada variación = Conversiones / usuarios únicos; donde las conversiones se definen como usuarios que completaron una determinada acción
  2. Intervalo de confianza del 95% para cada variación = CvR +/- 1.96 * Error estándar (consulte aquí para calcular el error estándar); Este es el rango de valores para el cual existe un 95% de probabilidad de que se encuentre la verdadera tasa de conversión.
  3. Mejora observada (absoluta) = (CvR de B – CvR de A); es la cantidad absoluta de elevación observada en la prueba
  4. Mejora observada (relativa) = (CvR de B – CvR de A) / CvR A * 100; es la cantidad relativa de elevación observada en la prueba
  5. La probabilidad de superar la línea base para la variación B es la probabilidad de que el CvR verdadero de B sea mayor que el CvR A verdadero (esta medida depende de las tasas de conversión de cualquiera de las variaciones, la mejora observada y la cantidad de potencia estadística en la prueba, el vea el enlace de arriba para saber cómo se calcula esto).

La prueba A / B / n o la prueba dividida es en gran medida equivalente a la prueba A / B en diseño, excepto que no está restringida a dos versiones (A y B). Cuando A / B o las pruebas divididas, muchos profesionales mantienen la Variación A como su control y, a menudo, incluso fijan la proporción de usuarios que se muestran A a una tasa más alta que las variaciones experimentales para reducir el riesgo percibido de probar algo nuevo.

Las pruebas multivariadas son distintas de las pruebas A / B o divididas en que emplean un diseño experimental factorial completo. En este caso, lo que se está probando se divide en diferentes elementos y cada combinación de variaciones de elementos constituye una versión distinta para ser probada. Tome el ejemplo de una página de destino que tiene los siguientes elementos y variaciones que se están probando:

  1. Titular: 2 variaciones
  2. Imagen de banner: 3 variaciones
  3. Campos de formulario: 3 variaciones
  4. Llamado a la acción: 4 variaciones

En este caso, una prueba multivariada produciría 72 combinaciones (2 * 3 * 3 * 4) para la prueba. Las pruebas multivariadas son una forma sólida de identificar la combinación de cambios con mejor rendimiento, especialmente si cree que el estado de algunos elementos se influyen entre sí. El ejemplo clásico de esto es el color del texto y el color de fondo: un fondo blanco puede funcionar mejor en una prueba, y un texto blanco puede funcionar mejor en otra, pero es poco probable que funcionen mejor como una combinación debido a su influencia mutua. .

Aunque más fácil de entender y conceptualizar. Todos los métodos mencionados siempre ofrecen una solución subóptima a la pregunta: ¿Qué funciona mejor? Los avances en el aprendizaje automático y la informática han hecho que estén disponibles opciones más sofisticadas y de mejor rendimiento.

Se ha demostrado que los algoritmos de bandido, en los que las proporciones de usuarios que muestran diferentes variaciones de prueba se actualizan dinámicamente a medida que hay más información disponible, superan el rendimiento de la prueba A / B de proporción fija, dividida o multivariada. Hay varias soluciones de bandidos que varían en su nivel de sofisticación y utilidad bajo diferentes restricciones de computación y desarrollo. Hemos descubierto que la mejor solución para bandidos para experimentos en línea es la que aprovecha el muestreo aleatorio de probabilidad, y puede leer más sobre eso aquí: http://splitforce.com/resources/….

Puede hacer pruebas A / B / multivariadas de muchas maneras, pero la forma en que lo abordaría hoy implica técnicas de bandidos multibrazos. No es un montón de pruebas de chi-cuadrado, no. Puede compararlo con el muestreo de Gibbs de una distribución que está aprendiendo a medida que avanza.

Sí, estás en lo correcto. En última instancia, está realizando pruebas de importancia para la diferencia estadística entre dos grupos. Lo más importante acerca de las pruebas es cómo diseña su experimento, es decir, qué características desea medir (es decir, clics). Podría haber literalmente miles de combinaciones que desea probar, por ejemplo, qué página web podría obtener la mayor cantidad de tráfico. Por lo tanto, un objetivo de las pruebas experimentales es reducir la cantidad de combinaciones que se están probando y asegurarse de que lo que está midiendo refleje su intención. Algunas compañías usan el método Taguchi para reducir el espacio. También podría usar un diseño ANOVA tradicional.

Conozco algunas tácticas que deben tenerse en cuenta en las pruebas AB, como la segmentación, la segmentación previa a la prueba / posterior a la prueba, la orientación, etc. /tech.pro/blog/1710/ab-and