Sí, estas empresas utilizan un modelo dimensional de alguna manera para informar. El modelo dimensional es un modelo significativamente más fácil de entender para los analistas de negocios y los tomadores de decisiones, y juega muy bien con las herramientas de informes existentes.
Como hice un trabajo de consultoría en Facebook haciendo casi exactamente lo que esta pregunta está haciendo, explicaré cómo funcionó esto en base a mi experiencia personal.
La mayor suposición incorrecta hecha en la pregunta es que estas compañías eligen solo una tecnología para hacer su análisis. Es decir, solo usan una base de datos relacional y un modelo dimensional para almacenar y analizar todos sus datos y, por lo tanto, el tipo de análisis de nivel de clic debe hacerse de esa forma. Esto es simplemente falso.
- ¿Cuáles son los recursos en línea más útiles (como capacitación, libros o certificaciones) para convertirse en un experto en arquitectura de Big Data?
- ¿Qué asignaturas optativas de Matemáticas / Estadísticas son las mejores para obtener una buena base para el análisis de datos en Australia?
- ¿Cuál es la próxima gran cosa que NO está relacionada con los datos o la informática?
- ¿Cuáles son algunos buenos proyectos sobre aprendizaje automático y minería de datos?
- ¿Puede Kotlin reemplazar a Scala en ciencia de datos?
Cuando se trata de ejecutar experimentos y analizar detalles de nivel de clic, este análisis generalmente se realiza en Hadoop & Hive. Hadoop Las razones son que raspar datos de registro y ejecutar análisis complejos requiere una programación muy personalizada. Los científicos de datos escribirán todo tipo de código loco para analizar estas cosas. Llamo a este tipo de análisis exploratorio , en el sentido de que la empresa está intentando conocer un desconocido . Una vez que la empresa lo sepa , generalmente creará un proceso repetible y medible para continuar con la validación. Aquí es donde entra en juego su almacén de datos relacionales y su esquema de estrella. Ahora que sabemos qué puntos de datos específicos queremos de Hadoop / Hive, podemos transformarlos y extraerlos y ponerlos en un formato “reportable” en una plataforma mucho más propicia para el análisis tradicional (permitiendo a los usuarios cortar los datos) Si tu quieres).
También hay casos en los que simplemente queremos medir el impacto de realizar cambios en un proceso existente. Si ya estamos recopilando y midiendo datos a través de un modelo dimensional, en realidad es muy fácil realizar pruebas A / B. Por ejemplo, si tuviera un área temática en mi almacén que mide las impresiones de página de una página en particular (todos los días miden cuántas visitas recibe la página) y realizamos algunas pruebas a / b en un cambio de diseño con la intención de aumentar las visitas en una página, sería muy fácil medir, a través del esquema en estrella y las herramientas de informes, qué efectos tuvo cualquier prueba a / b en las impresiones de esa página.
Lo más importante aquí es que estas compañías no se adhieren a una sola tecnología, proceso o modelo para resolver sus problemas de análisis.