Asumiré que el término vago “Big Data” se refiere a las soluciones NoSQL utilizadas para responder preguntas que solo un DWH tradicional podría responder usando un rdbms relacional.
Hay una serie de diferencias interesantes.
Un almacén de datos tradicional gasta mucho tiempo, dinero y recursos en la construcción de infraestructura que combina estrechamente su solución con las fuentes de datos, las reglas de limpieza de datos, la lógica empresarial, la procedencia de los datos, la integridad de los datos y las reglas que hacen cumplir las relaciones con los datos. La mayoría de estas cosas deben gestionarse de alguna manera mucho antes de que se pueda obtener un ROI.
- ¿Qué fascina a la gente sobre la ciencia de datos?
- ¿Cuál es la mejor certificación en el curso de Big Data para el entrenamiento de verano en Kolkata?
- Cómo engañar a los algoritmos de 'Big Data' para evitar el perfil y la orientación precisos de mí mismo
- Estoy empezando en Kaggle. Tengo experiencia en aprendizaje automático y modelos gráficos probabilísticos. ¿Cómo puedo mejorar en Kaggle?
- ¿Cuál es la diferencia entre un ingeniero de aprendizaje automático y un científico de datos en Quora?
Esperamos que las capas complejas, modelos, ETL y consumo se consideren con gran detalle antes de que comience la implementación.
Con muchas tecnologías NoSQL, estos pasos se pueden evitar al principio y esto da la apariencia a las empresas de que se están moviendo más rápido. La mayoría de las herramientas NoSQL también son excelentes para responder preguntas tácticas simples casi de fábrica con un diseño poco reflexivo. Para muchas empresas, todo lo que necesitan de su DWH son preguntas tácticas simples a nivel empresarial.
Cuando una organización quiere saber más preguntas estratégicas que requieren el cumplimiento de las relaciones, la limpieza de los datos, la consideración de la variación de tiempo, los algoritmos que implementan funciones de ventanas de índice de múltiples claves, etc. Las herramientas NoSQL comienzan a necesitar mucho más código para obtener Datos útiles Especialmente si los datos se actualizan y actualizan regularmente. En este punto, el nivel de esfuerzo comienza a compararse con el nivel original de esfuerzo de un DWH. Una solución DWH bien diseñada comenzará a realizar una solución NoSQL al considerar análisis avanzados.
Los detalles de implementación también serán muy diferentes, ya que no hay nada comparable al administrar una solución Map Reduce muy compleja con el equivalente tradicional de la administración de reglas ETL complejas.
En el lado de los desarrolladores, cosas como la recuperación ante desastres son triviales para todas las soluciones NoSQL serias. Un DWH tradicional no podrá competir al mismo costo total de propiedad con el mismo nivel de HA / DR. Dicho esto, generalmente no encuentro que sea necesario en el 99% de todos los casos de uso de DWH.