Gracias por el A2A.
Primero quiero decir que no estoy de acuerdo con la premisa de que el modelado dimensional no escala. En realidad, es el esquema de modelado de almacenamiento preferido de muchos de los principales jugadores de almacenamiento (Exadata, Teradata, etc.). He tenido modelos dimensionales que manejan cientos de millones a miles de millones de registros diariamente.
Quizás la mayor desventaja de la metodología Kimball es que debe saber cuál será su esquema antes de crear su solución. Es decir, si se encuentra con un problema que cambia fundamentalmente algo como la granularidad de su tabla de hechos, se ve obligado a crear una nueva área temática.
- ¿En qué áreas del aprendizaje automático es crucial la cuantificación de la incertidumbre?
- ¿Qué es Big Data y cómo trabajas con él?
- ¿Cuál es una excelente manera de aprender a usar las funciones en paquetes como Ggplot2 y Pandas en R y Python?
- ¿Cuál es la forma de explorar mis datos más fácilmente?
- ¿Qué paquete estadístico debo usar para el análisis de datos, R o SciPy?
Otro problema difícil de abordar con el modelado dimensional es garantizar la conformidad de las dimensiones. Esto requiere tener prácticas sólidas de gobernanza de datos para que sistemas dispares puedan unir adecuadamente los datos. Por lo general, es más una función de datos de baja calidad que una función de modelado dimensional.
Las jerarquías desequilibradas y desiguales también son muy difíciles de manejar en un modelo dimensional debido al aplanamiento de ellas.
Diré que para prácticamente todos los problemas que he encontrado en el modelado dimensional, el problema no radica en la metodología sino en el diseño funcional. Casi siempre es una función de una empresa que no tiene una comprensión o control total de sus datos.