¿Qué tiene de diferente el desarrollo de Big Data en comparación con el desarrollo de Data Warehouse?

Asumiré que el término vago “Big Data” se refiere a las soluciones NoSQL utilizadas para responder preguntas que solo un DWH tradicional podría responder usando un rdbms relacional.

Hay una serie de diferencias interesantes.

Un almacén de datos tradicional gasta mucho tiempo, dinero y recursos en la construcción de infraestructura que combina estrechamente su solución con las fuentes de datos, las reglas de limpieza de datos, la lógica empresarial, la procedencia de los datos, la integridad de los datos y las reglas que hacen cumplir las relaciones con los datos. La mayoría de estas cosas deben gestionarse de alguna manera mucho antes de que se pueda obtener un ROI.

Esperamos que las capas complejas, modelos, ETL y consumo se consideren con gran detalle antes de que comience la implementación.

Con muchas tecnologías NoSQL, estos pasos se pueden evitar al principio y esto da la apariencia a las empresas de que se están moviendo más rápido. La mayoría de las herramientas NoSQL también son excelentes para responder preguntas tácticas simples casi de fábrica con un diseño poco reflexivo. Para muchas empresas, todo lo que necesitan de su DWH son preguntas tácticas simples a nivel empresarial.

Cuando una organización quiere saber más preguntas estratégicas que requieren el cumplimiento de las relaciones, la limpieza de los datos, la consideración de la variación de tiempo, los algoritmos que implementan funciones de ventanas de índice de múltiples claves, etc. Las herramientas NoSQL comienzan a necesitar mucho más código para obtener Datos útiles Especialmente si los datos se actualizan y actualizan regularmente. En este punto, el nivel de esfuerzo comienza a compararse con el nivel original de esfuerzo de un DWH. Una solución DWH bien diseñada comenzará a realizar una solución NoSQL al considerar análisis avanzados.

Los detalles de implementación también serán muy diferentes, ya que no hay nada comparable al administrar una solución Map Reduce muy compleja con el equivalente tradicional de la administración de reglas ETL complejas.

En el lado de los desarrolladores, cosas como la recuperación ante desastres son triviales para todas las soluciones NoSQL serias. Un DWH tradicional no podrá competir al mismo costo total de propiedad con el mismo nivel de HA / DR. Dicho esto, generalmente no encuentro que sea necesario en el 99% de todos los casos de uso de DWH.

Los datos solían ser difíciles. Encerrado en sistemas propietarios. Necesitabas importarlo desde esas aplicaciones en un solo lugar para poder hacer algo con él. Entonces, las empresas crearon DataWarehouses para cargar físicamente datos de otras fuentes para agregarlos y realizar análisis sobre ellos.

La segunda parte es que esos datos generalmente se desperdiciaron. Se gastaron millones solo para crear cuadros de mando y gráficos para altos ejecutivos.

Afortunadamente ahora vivimos en un mundo mucho mejor. Una de ellas es que los datos se pueden leer sin importarlos, por lo que se pueden analizar grandes conjuntos de datos sobre la marcha y agregar los resultados en información útil sin la necesidad de importarlos en depósitos de datos caros, frágiles e inflexibles.

La segunda parte también es mejor. El aprendizaje automático significa que estos datos forman un bucle virtuoso, que muestra dónde el sistema podría funcionar mejor para que el sistema aprenda y mejore con el tiempo, sin involucrar a ejecutivos presionados en su proceso de toma de decisiones.