¿Qué tipo de preguntas de prueba A / B debo esperar en una entrevista con un científico de datos y cómo debo prepararme para esas preguntas?

Hola:

Espero que este artículo que escribí hace unos días sobre A / B Testing o Design of Experiment (DOE) ayude a:

En el entorno actual y en constante evolución, una organización necesita ser ágil y estar impulsada por los datos para mantener una ventaja sobre la competencia. Además, las organizaciones deben ser las más efectivas y productivas para obtener el máximo valor del capital y los recursos limitados disponibles a su disposición.

¿Cómo pueden hacerlo de manera sostenible?

Bueno, la prueba A / B o el Diseño de Experimento es una de esas herramientas que ha ayudado a las organizaciones en diferentes áreas verticales y funcionales a adquirir nuevos clientes, aumentar las ventas de los clientes existentes, maximizar el ROI en la campaña de marketing, diseñar nuevos productos y servicios, optimizar las operaciones entre otras cosas.

Plantilla DOE por ASQ

Entonces, ¿qué son las pruebas A / B o el DOE?

En términos simples, las pruebas A / B no son más que la realización de pruebas eficientes diseñadas estadísticamente para recopilar datos. A partir del análisis de estos datos, una organización puede extraer información valiosa y procesable que puede implementar para mejorar su negocio.

Wiki explica DOE como: en el uso general, el diseño de experimentos (DOE) o diseño experimental es el diseño de cualquier ejercicio de recopilación de información donde haya variaciones, ya sea bajo el control total del experimentador o no.

Aquí hay una vista pictórica del DOE

¿Para qué se utiliza el DOE?

Enlace de causas y efectos: muchos factores y su interacción pueden evaluarse al mismo tiempo. Más eficiente que cambiar un factor a la vez (enfoque OFAT) y mantener el enfoque de otras constantes.
Reducir la varianza
Confirmar hipótesis
Identificar factores clave
Comprender la interacción entre los factores.
¿Qué pasa si el análisis y la simulación
Diseña productos y ofertas
Mejoramiento

Estudios de casos del mundo real de DOEs

Cosas a considerar en DOE

Definición clara del problema u objetivo
Restricciones: tiempo, costo, etc.
Factores independientes, dependientes
Niveles de factores
Tipo de diseño
Modelo a montar
Plan de IMPLEMENTACION

Pasos involucrados en el DOE

Conceptos tecnicos clave

El DOE establece la relación de causa y efecto entre factores independientes y dependientes.
Las variables dependientes o las variables de respuesta son el resultado que el DOE intenta impactar
Las variables independientes o factores son las variables cuyo impacto el DOE intenta estimar
Los niveles son las configuraciones en las que se ejecutan factores o variables independientes durante el experimento
Los tratamientos son combinaciones únicas de factores y niveles. Cada ejecución de un experimento es un tratamiento.
Los tratamientos repetidos se llaman réplicas

Tipos de DOE

Deficiencias de FFD

El efecto de los factores principales se confunde / alias con los términos de interacción. Por ejemplo, el efecto de los factores principales se confunde con las interacciones de 2 factores. Esto se llama Resolución 3 FFD. Algunos términos de interacción de 2 factores tienen un alias con otras interacciones de 2 factores.
La resolución 4 FFD tiene efectos principales confundidos con interacciones de 3 factores o interacciones de 2 factores con otras interacciones de 2 factores.
La resolución 5 o superior no tiene ninguna confusión entre los efectos principales y las interacciones de 2 factores. Algunos efectos principales tienen alias con interacciones de 4 factores y las interacciones de 2 factores tienen alias con interacciones de 3 factores.

En general, el diseño factorial de fracción de resolución más alta debe elegirse ya que tiene menos confusión

Otros diseños

Matrices ortogonales de Taguchi: diseño muy eficiente para identificar el impacto del efecto principal con solo unos pocos experimentos. Por ejemplo, el diseño L4 se puede utilizar para identificar el impacto de 3 efectos principales utilizando solo 4 ejecuciones.
Diseño personalizado: una buena opción cuando el número de experimentos es limitado. Utiliza los criterios de D-Optimality para proporcionar la máxima información del experimento.
Métodos de superficie de respuesta: se utilizan principalmente para optimizar la configuración de factores para obtener la respuesta deseada. Generalmente hecho hacia el final de la experimentación
Cribado: se utiliza generalmente al comienzo del experimento para identificar económicamente los principales factores clave y las interacciones de orden inferior.

Ahora la pregunta del millón de dólares: ¿cómo hacer pruebas A / B o DOE?

Para expertos en tecnología, podemos ofrecerle herramientas estadísticas como SAS, R, Python, Minitab, DOE ++, Matlab, etc.

Vista de tareas de CRAN: diseño de experimentos (DoE) y análisis de datos experimentales

Índice del paquete de Python

Para nuestros amigos no técnicos, hay soluciones disponibles disponibles como Google Analytics Experiments, VWO, Adobe Target, etc. por un precio razonable por única vez o por suscripción.

Espero que hayas disfrutado leyendo este artículo.

¡Aclamaciones!

Ratnakar Pandey

Descargo de responsabilidad: Las opiniones expresadas aquí son únicamente las del escritor en su capacidad privada.

Para comprender realmente las pruebas A / B, debe aprender sobre diseño experimental e inferencia estadística.

Las pruebas A / B realmente son solo una versión renombrada de diseño experimental e inferencia estadística. Aquí hay tres temas que pueden surgir en las preguntas de la entrevista sobre las pruebas A / B.

Significado

¿Puedes explicarme qué significa? ¿Qué significa un intervalo de confianza?

Cuando está ejecutando un experimento, está tratando de refutar la hipótesis nula de que no hay diferencia entre los dos grupos.

Si la prueba estadística devuelve un valor significativo, entonces concluye que es poco probable que el efecto surja solo por casualidad. Si rechaza algo con un 95% de confianza, en el caso de que no haya un efecto verdadero, entonces un resultado como el nuestro (o un resultado más extremo que el nuestro) sucederá en menos del 5% de todas las muestras posibles.

La importancia tiene un significado preciso en las estadísticas y muchas personas sin antecedentes estadísticos formales no entienden el concepto.

Para comprenderlo mejor, recomendaría revisar los materiales sobre inferencia estadística, por ejemplo, estos cursos MOOC: UC BerkeleyX: Stat2.3x: Introducción a la estadística: inferencia y curso

Echa un vistazo ¿Qué es una explicación intuitiva de la prueba t en la prueba de hipótesis? por un poco más sobre pruebas de significación.

Aleatorización

¿Por qué es importante la aleatorización en el diseño experimental? ¿Cómo respondería la pregunta? ¿Asistir a reuniones locales hace que los vendedores de Etsy obtengan más ventas?

Puedes afirmar que los vendedores de Etsy que asisten a reuniones locales tienden a ser más exitosos, pero ¿puedes afirmar que su éxito es causado por su asistencia? Si un vendedor comenzó a asistir a reuniones locales, ¿comenzará a ver más ventas?

En este caso, no podemos sacar una conclusión causal debido a los factores de confusión en juego. Los vendedores de Etsy que asisten a reuniones locales son mucho más propensos a ser los que venden como una profesión de tiempo completo. En este caso, la variable de confusión es el nivel de compromiso como vendedor. Esta variable impulsa tanto la asistencia a las reuniones locales como la cantidad de ventas, por lo que no podemos concluir nada sobre la relación causal entre la asistencia a la reunión y la cantidad de ventas.

La aleatorización es el núcleo de la experimentación porque equilibra estas variables de confusión.

Al asignar el 50% de los usuarios a un grupo de control y el 50% de los usuarios a un grupo de tratamiento, puede asegurarse de que el nivel aproximado de compromiso del vendedor esté en promedio equilibrado entre los dos grupos, al igual que cualquier otra variable de confusión posible, medida o no.

Hay un poco de dificultad aquí ahora, ya que no podemos obligar al 50% de los usuarios a ir a una reunión local y al 50% a no hacerlo.

Sin embargo, lo que podemos hacer es que el tratamiento sea un estímulo para asistir a una reunión local, ya sea directamente desde la sede central de Etsy o de los propios grupos de vendedores locales.

Ahora puede medir el efecto causal de este estímulo, por ejemplo, ¿animar a los vendedores a asistir a reuniones locales aumenta el número total de ventas?

Comparaciones múltiples

¿De qué cosas deberíamos preocuparnos si tenemos un experimento con 20 métricas diferentes? ¿Qué pasa si ejecutamos 20 experimentos simultáneamente?

Digamos que usted es Amazon y está probando 20 métricas diferentes en su página de artículo: tasa de conversión, tasa de agregar al carrito, mirando la tasa de vendedores de terceros. Cuantas más métricas esté midiendo, más probabilidades tendrá de obtener al menos un falso positivo.

Las formas de intentar corregir esto incluyen cambiar su nivel de confianza (por ejemplo, Corrección de Bonferroni) o hacer pruebas para toda la familia antes de sumergirse en las métricas individuales (por ejemplo, LSD protegido de Fisher). Sin embargo, estos no se usan con frecuencia en la práctica, y la mayoría de las personas deciden proceder con precaución y desconfiar de los resultados espurios.

xkcd: Significant tiene una versión humorística de esto.

William Chen

Puedo pensar en los siguientes temas:

Prueba multivariante

A menudo, no es solo la versión A o B, sino múltiples versiones que deben probarse. Debe garantizar un criterio de detención para la prueba junto con su significación estadística (con un intervalo de confianza del 95%).

Otro punto a considerar es cómo puede elegir los cubos para las pruebas A / B. Los cubos se pueden asignar al azar (distribución uniforme) o en función de la ubicación del usuario, la edad, el dispositivo móvil / web, etc.

Ejemplo : el nuevo usuario se registra con 3-4 variantes (ventana emergente, nueva página de destino, preguntas frecuentes, chat en vivo, etc.)

Prueba de hipótesis
Esto es necesario cuando tienes que probar tu hipótesis.

Ejemplo : ¿Los hombres tienen una mayor conversión con esta campaña, etc.?

El predicado puede ser cualquier cosa: demografía, edad, velocidad de ancho de banda de Internet, móvil / web, etc.

Bandido multi-armado

Estrategias que le permiten experimentar con múltiples cosas y adquirir nuevos conocimientos / ideas y aplicar lo mismo a un conjunto más pequeño de pruebas.

Ejemplo : si desea averiguar la imagen del banner para la página de inicio, experimente con 20 (como un bandido), luego adquiera algunas ideas y luego realice una prueba A / B para las imágenes con el mejor rendimiento 5-6.

Melissa Dalis

Me gustaría recomendar leer las siguientes publicaciones relacionadas con las pruebas A / B y el aprendizaje automático, publicadas por el científico principal de datos de Dynamic Yield:

Por qué es tan importante alcanzar y proteger la importancia estadística en las pruebas A / B
Haciendo ciencia de datos en una startup: la dura verdad

Ratnakar Pandey (RP)

No soy un experto en este tema, pero después de algunas investigaciones mínimas, como Definir variaciones de prueba A / B más fuertes a través de UX Research, algunas preguntas básicas que podrían hacer están relacionadas con su proceso de descubrir causas verdaderas para definir mejores variaciones, su técnicas de prueba de optimización, las métricas que usa y sus métodos para maximizar la conversión.

Estas son consideraciones básicas, por lo que depende del nivel de competencia del trabajo que está solicitando.

En cuanto a la preparación, siempre es una ventaja leer libros o al menos artículos sobre las mejores herramientas que uno podría usar:

Herramientas UX: paquetes de análisis y pruebas divididas A / B

Rodrigo Rivera

Haría estas preguntas en entrevistas
1) Comercio electrónico: ¿es una buena idea comparar los valores promedio de las transacciones? ¿Cómo se comparan los ingresos en los grupos de abtest? Sugerencia: los ingresos de las transacciones hacen una distribución no gaussiana.
2) Prueba de entrelazado vs abtests en línea comunes
3) ¿Cuál es el beneficio del análisis bayesiano de las pruebas ab contra un enfoque frecuente frecuente? Sugerencia: libro escrito por Bolstard, estadísticas bayesianas

Melissa Dalis

More Interesting

En AWS, ¿qué es mejor para el análisis y modelado de datos: instancias optimizadas para memoria o computación?

¿Cuáles son algunos buenos problemas con los juguetes en la ingeniería de datos?

¿Cuáles son algunos buenos institutos de capacitación para aprender big data y análisis de datos en Bangalore?

¿Cuáles son algunas aplicaciones de la ciencia de datos en neurociencia?

¿Cuáles son las 25 principales compañías en ciencia de datos?

¿Debería un aspirante a científico de aprendizaje automático / científico de datos practicar problemas de kaggle?

¿Qué es la limpieza de datos como en Machine Learning y cómo se hace?

¿Cómo aprendo el procesamiento del lenguaje natural?

Como científico de datos, ¿sería útil aprender el desarrollo completo de la pila?

¿Cuáles son las diferentes herramientas utilizadas en la industria financiera para el análisis de datos?