El modelado dimensional popularizado por Ralph Kimball es quizás la metodología de implementación del almacén de datos más popular. Sin embargo, algunos cuestionan la escalabilidad de la metodología de Kimball. ¿Cuáles son algunas desventajas del método K?

Gracias por el A2A.

Primero quiero decir que no estoy de acuerdo con la premisa de que el modelado dimensional no escala. En realidad, es el esquema de modelado de almacenamiento preferido de muchos de los principales jugadores de almacenamiento (Exadata, Teradata, etc.). He tenido modelos dimensionales que manejan cientos de millones a miles de millones de registros diariamente.

Quizás la mayor desventaja de la metodología Kimball es que debe saber cuál será su esquema antes de crear su solución. Es decir, si se encuentra con un problema que cambia fundamentalmente algo como la granularidad de su tabla de hechos, se ve obligado a crear una nueva área temática.

Otro problema difícil de abordar con el modelado dimensional es garantizar la conformidad de las dimensiones. Esto requiere tener prácticas sólidas de gobernanza de datos para que sistemas dispares puedan unir adecuadamente los datos. Por lo general, es más una función de datos de baja calidad que una función de modelado dimensional.

Las jerarquías desequilibradas y desiguales también son muy difíciles de manejar en un modelo dimensional debido al aplanamiento de ellas.

Diré que para prácticamente todos los problemas que he encontrado en el modelado dimensional, el problema no radica en la metodología sino en el diseño funcional. Casi siempre es una función de una empresa que no tiene una comprensión o control total de sus datos.

Almacenamiento de datosBig DataCiencia dedatos

¿Quién es el mejor blogger a seguir para las noticias de análisis de datos?

¿DataCamp me ayudará a competir en las competencias de Kaggle? Soy un principiante.

¿Cuál es la diferencia entre la investigación de mercado y la ciencia de datos, y cómo se pueden integrar juntos?

Soy un recién graduado en ingeniería industrial, ¿cómo comienzo mi camino en ciencia de datos para la cadena de suministro?

¿Un científico de datos necesita conocer algoritmos y estructuras de datos, así como un ingeniero de software?

¿Cuáles son algunos mitos comunes que existen hoy sobre el aprendizaje automático?

Estoy de acuerdo con Chris en que no estoy de acuerdo con la premisa de que el modelado dimensional no escala.

Desarrollé un método para calcular el número de consultas que cualquier modelo dimensional puede admitir. Medición de modelos dimensionales Básicamente, no solo escala, sino que si está bien diseñado, escala a algunos tamaños sorprendentes con bastante rapidez.

Conformar dimensiones es el mayor desafío, pero un método que he visto para mitigar algunas de estas preocupaciones radica en las áreas temáticas. Cree un modelo dimensional conformado con tablas de hechos potencialmente múltiples. Dependiendo de la herramienta de visualización utilizada en la parte superior del modelo Dimensional, cree un modelo dimensional de presentación. Los SLA deben mantenerse, por supuesto, pero la arquitectura es escalable, flexible y lo suficientemente robusta como para soportar la mayoría de cualquier infraestructura analítica de autoservicio.

Dicho esto, para algunas investigaciones de tipo estadístico en las que estoy buscando correlación, traigo eso a una estructura de datos amplia y plana. Esto me permite hacer regresión y otras técnicas para identificar patrones y significado en los datos.

Estas técnicas estadísticas no están necesariamente disponibles para todos, y puedo generar datos a otros que están haciendo una investigación similar.

Sin embargo, para la mayoría de los usuarios, un modelo dimensional con una capa de preparación robusta que admite extractos rápidos me ha permitido admitir muchos usuarios.

Doug Needham

More Interesting

¿Por qué se utiliza el índice de mapa de bits en el almacenamiento de datos?

¿Con qué frecuencia se usa el paralelismo en la ciencia de datos?

Soy un estudiante de secundaria interesado en Data Science. ¿Cómo puedo comenzar a aprender y jugar con conjuntos de datos?

¿Ayudará una formación en economía si me especializo en ciencia de datos?

¿Cuál es la diferencia entre la tabla de clasificación pública y privada en Kaggle?

Si quiero desarrollar herramientas analíticas en tiempo real para mi sitio web y agregar recomendaciones basadas en objetivos en tiempo real, ¿cuál entre PredictionIO y EasyRec sería una mejor opción? ¿Hay otras opciones mejores (de código abierto) disponibles aparte de estas dos?

¿Cuál es la diferencia entre ingeniería de datos y minería de datos?

Cómo aprender SAS o R por mí mismo

¿Cuál es el salario de un desarrollador de Big Data Hadoop?

¿Cómo es el MTech en Data Science en SEAS, Universidad de Ahmedabad?