¿Qué tan importante es la prueba A / B para un científico de datos que trabaja en una empresa de tecnología?

Las pruebas A / B requieren varios ingredientes para ser efectivos. Ver http://bit.ly/ExPScale para varios principios:

  1. La organización quiere tomar decisiones basadas en datos y ha formalizado el Criterio de evaluación general.
    Raramente escuchará a alguien al frente de una organización decir que no quiere estar basado en datos, pero si los ejecutivos clave no lo valoran, las pruebas A / B no sucederán. Ken Segall en Insanely Simple escribió que Apple bajo Steve Jobs “no probó un solo anuncio. No para impresión, televisión, vallas publicitarias, la web, el comercio minorista o cualquier otra cosa “. Lo que debe preguntarse es si su CEO, que quiere confiar en su instinto, tendrá el mismo promedio de bateo que Steve Jobs, o si ( más probablemente) creen que su intuición es excelente, cuando, en realidad, sus ideas son mediocres y solo 1/3 son buenas (ese es el éxito promedio para los experimentos controlados).
  2. Se pueden ejecutar experimentos controlados y sus resultados son confiables.
    1. ¿Tienes suficientes usuarios? La regla general es que necesita miles de usuarios activos (por ejemplo, http://bit.ly/ExPScale). Debajo de eso, los supuestos estadísticos no se sostienen bien.
      Si bien estoy de acuerdo con el párrafo inicial del Usuario de Quora, creo que muchas empresas de empresa a empresa tienen suficientes usuarios para ejecutar pruebas A / B, y lo hacen. Por ejemplo, Google ejecuta pruebas A / B en las interfaces de sus anunciantes (vea Más por su dinero: Evaluación de nuevas funciones para anunciantes en línea http://citeseerx.ist.psu.edu/vie…).
    2. ¿Es su organización ágil y su ciclo de iteración es lo suficientemente bueno como para justificar la ejecución de experimentos? Es difícil ejecutar pruebas A / B en hardware que se lanza una vez al año (por ejemplo, teléfono). Incluso en el software, hay muchas organizaciones que no valoran la agilidad (por ejemplo, el navegador Edge se lanza con Windows cada 6 meses, mientras que Chrome se lanza mensualmente).
  3. Somos pobres para evaluar el valor de las ideas.
    Hay muchas pruebas de las compañías de software de que la mayoría de las ideas fallan cuando se someten a una rigurosa evaluación científica. Airbnb, Amazon, Booking.com, eBay, Facebook, Google, LinkedIn, Microsoft, Netflix, Twitter, Yahoo! todos han informado que las tasas de éxito son bajas: menos del 50% y tan bajas como el 10%. Su dominio puede ser diferente o su modelo de negocio puede ser diferente. Un ejemplo: si está comenzando copiando el producto de otra compañía (digamos que está creando un servicio similar a Uber), entonces no hay necesidad de probar la mayoría de las cosas A / B; de hecho, sus usuarios se beneficiarán de que su software se vea como el perro grande al que están acostumbrados.

Preguntaste sobre otras habilidades. Si va a hacer análisis predictivos y aprendizaje automático, entonces debería estar usando pruebas A / B, o de lo contrario no podría saber si su nuevo modelo (que redujo RMSE o alguna otra métrica en los datos fuera de línea) en realidad mejorando las métricas empresariales clave.

Para resumir, la importancia de tener habilidades de prueba A / B para un científico de datos depende de si trabajará en una empresa donde se cumplan los principios anteriores, y si SU trabajo como científico de datos estará relacionado con las pruebas A / B. Puede trabajar en una empresa donde se mantienen los principios, donde la empresa realiza muchas pruebas A / B y, sin embargo, estará ETL ‘datos todo el día y escribir informes para responder preguntas únicas.

Depende completamente del tipo de empresa. Una de las principales características distintivas es si la empresa está fabricando algún producto que tiene muchos usuarios. Las empresas web de consumo son excelentes ejemplos: Pinterest, Facebook, Quora, etc., todos tienen millones de usuarios, y tal vez incluso el caso más común y conocido en el Silicon Valley.

Cuando tienes muchos usuarios, entonces tienes la oportunidad de experimentar con detalles ajustados (¿deberíamos usar un botón de color azul o uno rojo? ¿Deberíamos usar el algoritmo anterior o uno nuevo?).

Dicho esto, para las empresas que tienen, digamos, cientos de usuarios (es decir, clientes), puede que no sea un ROI lo suficientemente alto como para desarrollar toda la infraestructura necesaria para las pruebas A / B. Es una inversión bastante significativa para entrar en él debido al software de back-end que debe escribirse para admitirlo. También refleja un cambio en la forma en que se toman las decisiones: debe contar con personas en la gerencia que consideren valioso consultar los datos, por sobre la intuición, al tomar decisiones importantes sobre el producto.

Y para ser claros, algunos científicos de datos actúan más como ingenieros de software que como analistas de productos, por lo que incluso en las empresas donde se realizan pruebas A / B, los científicos de datos pueden no necesariamente estar tan involucrados en ello. Es en este punto que te das cuenta de lo inútil que es la etiqueta del científico de datos para describir los roles en el valle del silicio 🙂

Como ya se dijo en otras respuestas, depende. Una forma de verlo es en el contexto de las etapas del flujo de trabajo:

  1. ETL, adquisición de datos, arquitectura
  2. Construcción de modelos, ajuste de funciones, automatización.
  3. Evaluación de desempeño, elevación relativa, medidas de KPI y desarrollo de negocios.

Algunos trabajos de ciencia de datos se centran en la primera y segunda etapa y pasan por alto la importancia de evaluar críticamente los resultados. Tal vez esté bien en caso de que el propósito sea automatizar un proceso manual y los ahorros de costos ya superen con creces cualquier beneficio incremental de un algoritmo frente al otro. Yo diría que las pruebas A / B y las medidas críticas de rendimiento juegan un papel más importante para las compañías maduras donde las tuberías de la etapa uno y dos están en su lugar, a pesar de que idealmente deberían haber sido incorporadas en la tubería desde el principio.

Muy importante en mi opinión.

Una de las funciones principales de un científico de datos es crear modelos para resolver enunciados de problemas específicos. La mayoría de estos problemas giran en torno a la predicción o clasificación.

No hay un modelo único que pueda predecir perfectamente el resultado en el futuro . Lo que a menudo terminamos es con una cubeta de modelos. Todos parecen tener un rendimiento más o menos similar en el entorno de prueba fuera de línea.

Imagine el caso cuando desarrolló 2 modelos para predecir el comportamiento de algunos clientes:

  1. Modelo A: funciona muy bien, pero es un modelo de caja negra (por ejemplo, redes neuronales). Entonces, esto no te dice reglas legibles por humanos.
  2. Modelo B: esto no funciona tan bien (pero cerca del modelo A). A diferencia de A, este modelo también le proporciona las reglas. ¡Estas reglas pueden ser más beneficiosas para nuestros clientes en CleverTap porque ahora pueden tomar medidas directamente sobre estos comportamientos!

Es posible que prefiera el Modelo B debido a su transparencia . Aquí es donde entra en juego la importancia de las pruebas A / B. Si tiene una base de clientes lo suficientemente grande, puede hacer lo siguiente:

  1. Pruebe el modelo A en el 5% de su población
  2. Pruebe el modelo B en el 5% de su población
  3. Seleccione otro 5% más de población como su grupo de control
  4. Implemente ambos modelos A y B en la población seleccionada

Ahora, podemos probar el Modelo-A versus el Modelo-B con población viva y verificar cómo funciona el Modelo-B con el Modelo-A. Si el Modelo-B funciona razonablemente bien, tienes suerte 🙂

También hemos desarrollado un tutorial simple para explicar las pruebas A / B.

También tiene una calculadora de prueba A / B avanzada que le permite

a) ingresa tus objetivos y te aconseja un tamaño de muestra correcto

b) le permite saber si el ganador gana por un margen significativo

Pruébelo: una guía de marketing para pruebas A / B

¡Muy importante! Por lo general, un científico de datos trabaja con experimentos fuera de línea con métricas adecuadas: tasa de clasificación errónea, errores de pronóstico, recuperación y precisión, etc. En este caso, un científico de datos descuida los efectos que aparecen mientras el usuario interactúa con su sistema.

Un buen ejemplo: sistemas de recomendación. Es imposible predecir completamente el comportamiento de un usuario mediante experimentos fuera de línea porque un nuevo algoritmo influirá en el comportamiento del usuario. Según mi experiencia, 9 de 10 métricas positivas sin conexión no arrojarán resultados positivos en experimentos en línea.

Vea un artículo muy interesante al respecto: predicción del rendimiento en línea de los sistemas de recomendación de noticias a través de métricas de evaluación más ricas

More Interesting

¿Dónde puedo hacer capacitación en línea de ciencia de datos?

Cómo aprender a ser un análisis de datos

¿Cómo es trabajar en un equipo de ciencia de datos de detección de fraude?

¿Cuáles son algunas de las mejores prácticas para la limpieza de datos?

¿Cuáles son los principales tipos diferentes de diagramas de flujo?

¿Cómo alguien más nuevo pone el pie en la puerta de la ciencia de datos, tanto en términos de aprendizaje como de trabajo?

¿Se puede dividir un conjunto de datos en dos conjuntos separados, en un conjunto predicho con precisión y un conjunto de errores?

¿Debería unirme a 'dominar el análisis de datos con R' por edureka o 'Análisis de datos con R' por Udacity?

¿Cómo se benefician los servicios de transcripción de datos?

¿Es muy difícil sobresalir en ciencia de datos? ¿Qué instituto debería considerar para los cursos de ciencia de datos en Pune?

¿Cuáles son los temas candentes y / o importantes en la gestión de datos en la nube y en la investigación de la computación en la nube? Recientemente comencé mis estudios de doctorado y actualmente estoy buscando un problema en la computación en la nube.

¿Cuáles son las perspectivas laborales para un estudiante internacional después de una maestría en ciencia de datos o análisis de datos en los Estados Unidos?

¿Qué tipo de análisis de datos puedo hacer en las redes sociales usando R?

¿Debo aprender a fondo la ciencia de datos o la nube? ¿Qué paga más en estos días?

Cómo convertir datos categóricos a datos continuos