¿Cuáles son algunos de los procedimientos / metodologías estadísticas comúnmente utilizados en las pruebas A / B? La tecnología cambia la vida futura

Gran pregunta Hoy en día, las herramientas estándar han facilitado que las personas comiencen a ejecutar pruebas y recopilar datos sin tener que construir los modelos para interpretar esos datos. Como resultado, las pruebas se han vuelto más populares, pero muchas personas están ejecutando pruebas sin comprender completamente las estadísticas detrás de ellas.

Aquí hay un desglose de los métodos más comunes que se utilizan para los experimentos en línea:

Las pruebas A / B a menudo se usan como un término general para la experimentación en línea, pero en realidad se refieren a un tipo específico de prueba en el que dos variaciones de algo (producto, correo electrónico, publicidad, página de destino, etc.) se ofrecen al azar a usuarios distintos. o visitantes en proporciones fijas (ej .: 50% ve A, 50% ve B). El grupo de usuarios expuestos a la Variación A a menudo se usa como grupo de control, y la Variación A en sí misma es a veces la versión que existía antes de la prueba y para la cual se puede deducir una medida confiable del rendimiento de referencia a partir de los datos históricos. La Variación B, en este caso, es la nueva versión y su rendimiento se mide con respecto a la línea de base utilizando las siguientes métricas:

Tasa de conversión observada (CvR) para cada variación = Conversiones / usuarios únicos; donde las conversiones se definen como usuarios que completaron una determinada acción
Intervalo de confianza del 95% para cada variación = CvR +/- 1.96 * Error estándar (consulte aquí para calcular el error estándar); Este es el rango de valores para el cual existe un 95% de probabilidad de que se encuentre la verdadera tasa de conversión.
Mejora observada (absoluta) = (CvR de B – CvR de A); es la cantidad absoluta de elevación observada en la prueba
Mejora observada (relativa) = (CvR de B – CvR de A) / CvR A * 100; es la cantidad relativa de elevación observada en la prueba
La probabilidad de superar la línea base para la variación B es la probabilidad de que el CvR verdadero de B sea mayor que el CvR A verdadero (esta medida depende de las tasas de conversión de cualquiera de las variaciones, la mejora observada y la cantidad de potencia estadística en la prueba, el vea el enlace de arriba para saber cómo se calcula esto).

La prueba A / B / n o la prueba dividida es en gran medida equivalente a la prueba A / B en diseño, excepto que no está restringida a dos versiones (A y B). Cuando A / B o las pruebas divididas, muchos profesionales mantienen la Variación A como su control y, a menudo, incluso fijan la proporción de usuarios que se muestran A a una tasa más alta que las variaciones experimentales para reducir el riesgo percibido de probar algo nuevo.

Las pruebas multivariadas son distintas de las pruebas A / B o divididas en que emplean un diseño experimental factorial completo. En este caso, lo que se está probando se divide en diferentes elementos y cada combinación de variaciones de elementos constituye una versión distinta para ser probada. Tome el ejemplo de una página de destino que tiene los siguientes elementos y variaciones que se están probando:

Titular: 2 variaciones
Imagen de banner: 3 variaciones
Campos de formulario: 3 variaciones
Llamado a la acción: 4 variaciones

En este caso, una prueba multivariada produciría 72 combinaciones (2 * 3 * 3 * 4) para la prueba. Las pruebas multivariadas son una forma sólida de identificar la combinación de cambios con mejor rendimiento, especialmente si cree que el estado de algunos elementos se influyen entre sí. El ejemplo clásico de esto es el color del texto y el color de fondo: un fondo blanco puede funcionar mejor en una prueba, y un texto blanco puede funcionar mejor en otra, pero es poco probable que funcionen mejor como una combinación debido a su influencia mutua. .

Aunque más fácil de entender y conceptualizar. Todos los métodos mencionados siempre ofrecen una solución subóptima a la pregunta: ¿Qué funciona mejor? Los avances en el aprendizaje automático y la informática han hecho que estén disponibles opciones más sofisticadas y de mejor rendimiento.

Se ha demostrado que los algoritmos de bandido, en los que las proporciones de usuarios que muestran diferentes variaciones de prueba se actualizan dinámicamente a medida que hay más información disponible, superan el rendimiento de la prueba A / B de proporción fija, dividida o multivariada. Hay varias soluciones de bandidos que varían en su nivel de sofisticación y utilidad bajo diferentes restricciones de computación y desarrollo. Hemos descubierto que la mejor solución para bandidos para experimentos en línea es la que aprovecha el muestreo aleatorio de probabilidad, y puede leer más sobre eso aquí: http://splitforce.com/resources/….

Data ScienceList QuestionMachine LearningStartups