Pruebas A / B: ¿Es útil el diseño de una base de datos de esquema en estrella para las empresas tecnológicas que experimentan continuamente?

Sí, estas empresas utilizan un modelo dimensional de alguna manera para informar. El modelo dimensional es un modelo significativamente más fácil de entender para los analistas de negocios y los tomadores de decisiones, y juega muy bien con las herramientas de informes existentes.

Como hice un trabajo de consultoría en Facebook haciendo casi exactamente lo que esta pregunta está haciendo, explicaré cómo funcionó esto en base a mi experiencia personal.

La mayor suposición incorrecta hecha en la pregunta es que estas compañías eligen solo una tecnología para hacer su análisis. Es decir, solo usan una base de datos relacional y un modelo dimensional para almacenar y analizar todos sus datos y, por lo tanto, el tipo de análisis de nivel de clic debe hacerse de esa forma. Esto es simplemente falso.

Cuando se trata de ejecutar experimentos y analizar detalles de nivel de clic, este análisis generalmente se realiza en Hadoop & Hive. Hadoop Las razones son que raspar datos de registro y ejecutar análisis complejos requiere una programación muy personalizada. Los científicos de datos escribirán todo tipo de código loco para analizar estas cosas. Llamo a este tipo de análisis exploratorio , en el sentido de que la empresa está intentando conocer un desconocido . Una vez que la empresa lo sepa , generalmente creará un proceso repetible y medible para continuar con la validación. Aquí es donde entra en juego su almacén de datos relacionales y su esquema de estrella. Ahora que sabemos qué puntos de datos específicos queremos de Hadoop / Hive, podemos transformarlos y extraerlos y ponerlos en un formato “reportable” en una plataforma mucho más propicia para el análisis tradicional (permitiendo a los usuarios cortar los datos) Si tu quieres).

También hay casos en los que simplemente queremos medir el impacto de realizar cambios en un proceso existente. Si ya estamos recopilando y midiendo datos a través de un modelo dimensional, en realidad es muy fácil realizar pruebas A / B. Por ejemplo, si tuviera un área temática en mi almacén que mide las impresiones de página de una página en particular (todos los días miden cuántas visitas recibe la página) y realizamos algunas pruebas a / b en un cambio de diseño con la intención de aumentar las visitas en una página, sería muy fácil medir, a través del esquema en estrella y las herramientas de informes, qué efectos tuvo cualquier prueba a / b en las impresiones de esa página.

Lo más importante aquí es que estas compañías no se adhieren a una sola tecnología, proceso o modelo para resolver sus problemas de análisis.