¿Deben analizarse los datos en la fuente o debe construirse un almacén de datos?

Si no es necesario unir los datos a los datos de otras fuentes, los datos pueden analizarse en el sistema transaccional en el que se originaron. Dos advertencias: (1) El procesamiento analítico es muy diferente del procesamiento transaccional, el primero típicamente involucra grandes conjuntos de registros de más de una tabla o archivo, el último típicamente involucra registros únicos o pequeños números de registros en una o dos tablas / archivos. Por lo tanto, el procesamiento analítico en un sistema diseñado para un rendimiento óptimo con una carga de trabajo transaccional puede tener un rendimiento deficiente y también puede degradar el procesamiento transaccional. (2) El procesamiento analítico generalmente implicaba enriquecimiento con datos de otras fuentes. Por estas razones, los datos generalmente se extraen, selectivamente, y se cargan en un sistema de datos separado para análisis.

Si los datos de origen residen en un sistema existente y no es necesario unirlos a otros datos o transformarlos de alguna manera, entonces es probable que pueda hacer un análisis en el lugar.

Pero mis consideraciones clave podrían ser responder estas preguntas:
– ¿Es un sistema transaccional que puede verse afectado al ejecutar también informes durante el horario comercial?
– ¿Es un modelo OLTP muy simple que no requiere uniones de pesadilla con 15 tablas y problemas de rendimiento significativos solo para responder preguntas simples?
– ¿Puede responder las preguntas comerciales que le hacen desde la perspectiva de los informes con los datos disponibles?
– ¿Su producto vino con un módulo de informes que puede contener los informes que necesita y / o puede tener acceso a los desarrolladores para escribir los informes que necesita con un esfuerzo razonable?

Muchas veces, si respondió No a cualquiera de las preguntas anteriores, al menos podría considerar algún tipo de arquitectura de “almacén de datos” para remodelar y representar datos de una manera que elimine la carga de su sistema transaccional y presente los datos de una manera manera de informar eficazmente.

Recomendaría mirar las preguntas analíticas / de inteligencia empresarial que está tratando de responder y qué tan importantes son para la organización. La construcción de almacenes de datos es costosa y requiere mucho tiempo, pero al final definitivamente vale la pena si se realiza un trabajo de base adecuado para a qué preguntas se espera responder en lugar de construirlas porque las otras organizaciones las hacen.
La mayoría de las veces, los datos de las aplicaciones de origen deben transformarse / limpiarse para colocarlos en la capa del almacén de datos. También construir un DW evita los silos de datos que pueden ser perjudiciales para el crecimiento de la organización.

Si su propósito es hacer un análisis de datos en los datos de origen, entonces es posible que no necesite un DW. Lo más probable es que ese no sea el caso. Es posible que desee hacer un análisis y presentar las visualizaciones a los gerentes / ejecutivos. Es posible que desee repetir su análisis de los datos de origen y programar todo el proceso de generación de informes. Para estos necesitas un DW.

More Interesting

¿Cómo han fomentado los grandes datos la ciencia? ¿Existen ejemplos en los que el análisis de big data ha llevado a una mejora significativa en cualquier campo científico que no se podría hacer mediante el análisis tradicional?

¿Qué piensan los científicos de datos del libro "Programming Collective Intelligence"?

¿Qué carrera debería intentar, ciencia de datos o aprendizaje automático?

Cómo aprender ciencia de datos sin conocimientos de matemáticas

¿Cuál es la diferencia entre el curso de MSc Business Analytics y MSc Data Science en UCL? ¿Cuál es más adecuado para convertirse en un científico de datos?

¿Cuál es el límite de tamaño de archivo en una carga a Slack?

¿Cuáles son los mejores paquetes de R? ¿Por qué?

¿Qué es la protección de pérdida de datos?

¿Qué campo tiene mejores perspectivas de carrera, Big data o data science?

¿Existe algún servicio web asequible para importar datos de un CSV, conectarlos, limpiarlos y analizarlos?

¿La computación cognitiva y los sistemas como IBM Watson reemplazarán a los científicos de datos en los próximos 5 años? Si no, ¿en qué casos un ser humano puede sobresalir y Watson no?

¿Cuál es la diferencia entre los datos generados por la actividad y los generados por la máquina en la terminología de Big Data?

Cómo construir un currículum sólido para trabajar en Big Data

¿En qué se parecen y se diferencian los problemas establecidos en CS 109 al trabajo como científico de datos real?

¿Qué oportunidades de carrera en ciencia de datos y aprendizaje automático existen en la NASA?