¿Cuáles son las consecuencias y desventajas de usar datos agregados? ¿Cómo podemos combatirlos si no hay datos de nivel granular?

Cualquier agregación es una expresión de una regla empresarial aplicada a los datos. Por lo general, las agregaciones se utilizan para capturar una gran parte de la información crítica dentro de un conjunto de datos en una forma más compacta y más enfocada. Tanto la compactación como el enfoque son fuentes de dificultades potenciales con los datos agregados, la compactación porque no se puede revertir sin acceso a los datos originales y el enfoque porque las restricciones en una agregación dada son esencialmente una instantánea de lo que se consideró importante cuando la agregación fue construido

La compactación puede verse como un ejercicio de confianza: una vez que se eliminan los datos atomísticos subyacentes, el usuario solo puede confiar en que la agregación se realizó como se documenta. Cuando los usuarios perciben errores u rarezas en los datos, se viola esa confianza y, a menudo, con costos reales en dólares: considere un departamento de usuarios que calcula el 5% de esos mismos resultados de fuentes originales a través de una hoja de Excel mensual, al costo de 25 horas hombre por mes.

Considere el enfoque de una agregación como una declaración en el código de que alguna parte del flujo de datos de una empresa es de importancia adicional y, por lo tanto, vale la pena destacar. Un ejemplo sería el ingreso bruto semanal por tienda, calculado como la suma de todas las transacciones de ventas y mantenido en la tienda y el grano semanal. El usuario original está encantado, ahora puede ver los ingresos semanales de todas sus tiendas en un conjunto de datos. Si más tarde decide que la ganancia neta, no los ingresos, es el número crítico que mejor reflejará qué tan bien están funcionando sus tiendas, solo tendrá esa información del ‘lanzamiento’ de la nueva agregación.

La naturaleza de la agregación lo convierte en una calle de sentido único: si todo lo que tiene es el agregado, no puede recuperar los datos subyacentes. Incluso si captura algún conjunto de perfiles estadísticos del conjunto de datos atomísticos, no recuperará toda la información perdida.

La respuesta emergente a la pregunta “cómo combatimos estas limitaciones” pareció durante algún tiempo ser una variación en el concepto del lago de datos. En lugar de calcular y almacenar abstracciones estáticas de los datos atomísticos, los informes que necesiten tales abstracciones las realizarían sobre la marcha directamente desde el conjunto de datos original. Si se determina que un nuevo enfoque es más deseable, el conjunto de datos original completo estaría allí para respaldarlo desde que se mantuvieron los datos históricos.

Este enfoque funciona y es utilizado por algunas empresas. Los costos de almacenamiento y los costos de soporte de consultas son problemas reales aquí, y se necesita un cálculo cuidadoso del ROI para justificar esos costos.