¿Cuál es la diferencia entre Data Warehousing y Big Data Analytics?

Para obtener el concepto completo, debe agregar una categoría más de Base de datos operativa, o transacciones de sus operaciones diarias. Los tipos de consultas en un Operational generalmente se basan en procesos y permiten el análisis de datos en tiempo real.

El Almacén de datos se usa generalmente para almacenar datos históricos (parcialmente provenientes de las SAO) y las consultas generalmente se basan en temas y se utilizan análisis profundos para ayudar a obtener valor comercial de fuentes de datos integradas y posiblemente fuentes de datos externas también (datos de competencia, clima datos, etc.).

Supongo que sabe qué es Big Data, ya que no solo es necesariamente de gran volumen, porque su almacén de datos ciertamente puede abarcar múltiples petabytes de datos. Los grandes datos generalmente son datos no estructurados o semiestructurados, lo que significa que no están estructurados de manera que se almacenen y procesen fácilmente en una base de datos relacional; procesado más específicamente en SQL.

Un ejemplo rápido de registro web de análisis de flujo de clics. Tiene cientos de miles de millones de clics y desea poder encontrar a todas las personas que agregaron cosas a su carrito, comenzaron a pagar, llegaron a la página de precios de envío y abandonaron su carrito. Ese problema es la sesionización y el análisis de ruta basado en series temporales. En SQL es posible, pero MUY complejo e involucra múltiples iteraciones en los datos.

Espero que esto ayude.

Hola,

Antes de responder a su pregunta, permítame explicarle los términos Data Warehouse & Big Data.

  • Almacén de datos : un almacén de datos se construye integrando datos de múltiples fuentes heterogéneas que admiten informes analíticos, consultas estructuradas y / o ad hoc y toma de decisiones.

Mientras que el almacenamiento de datos implica la limpieza de datos, la integración de datos y la consolidación de datos.

  • Big Data : Big Data es una colección de gran cantidad de datos que requiere sistemas especiales de administración de bases de datos para analizar y extraer información útil de ellos. El análisis y las ideas de estos datos se consideran Big Data Analytics .

Espero que esto responda a su pregunta.

Si desea obtener un amplio conocimiento sobre Big Data y temas relacionados, consulte el siguiente enlace. Es muy útil

https://goo.gl/t24Wwx

Data Warehouse (DW, o EDW o FDW) es un concepto arquitectónico en la informática de datos. Bigdata Analytics? Para mí, es solo un análisis de datos. A menudo, Bigdata se usa para asustar a los clientes para que vendan un producto, especialmente en el cuidado de la salud. Hablemos de esto uno por uno.
Almacén de datos: la industria considera que Bill Inmon, Ralph Kimball son los pioneros.
Bill Inmon define: Un almacén de datos es una recopilación de datos no volátil , orientada al tema , integrada , variable en el tiempo y en apoyo del proceso de toma de decisiones de la administración.
Por ejemplo, Ventas, Marketing, Recursos Humanos, Reclamaciones son áreas temáticas de una organización.
Medios integrados: EDW adoptará las herramientas de integración de datos (Informatica, Sync Sort) para extraer las múltiples fuentes de datos en la organización y estructurarlas en función del área temática y otras entidades comerciales lógicas.
Variante de tiempo significa que los datos históricos se guardan en un almacén de datos.
Una vez que los datos están en el EDW, no cambiará (no volátil)
Ralph Kimball define: Un almacén de datos es una copia de datos de transacciones estructurados específicamente para consultas y análisis .
EDW almacena los datos en un modo normalizado o desnormalizado (esquema de estrella o copo de nieve). Esto consume mucho tiempo y es costoso. A veces me refiero a esto como estructurar los datos.
¿Quién tiene la razón? Ambas son: las organizaciones adoptan una o una combinación, según los casos de uso,
La calidad de los datos (desduplicación, seudonimización, coincidencia y fusión), la gestión de datos maestros, la gestión de datos de referencia y el gobierno de datos son las capacidades o las técnicas de normalización de datos que se construirán sobre Data Warehouse con tecnología como habilitadores para esas capacidades.
Los procesos, herramientas y tecnología de inteligencia empresarial se utilizarán en EDW superior para proporcionar informes, paneles, análisis ad-hoc y análisis predictivo. Estas son las porciones de Analytics de los datos.
Ahora hablemos de Bigdata Analytics: esta es una palabra muy publicitada en la industria en el sentido de que se convirtió en una jerga de marketing tanto para vendedores como para buscadores de carrera. En la era empresarial moderna e innovadora, variedad de fuentes que ingieren a gran volumen y alta velocidad (millones de filas en segundos). Las herramientas y técnicas tradicionales adoptadas en el mundo EDW no son eficientes. Las herramientas modernas como Hadoop, las herramientas de aprendizaje automático que se ejecutan en hardware básico están ayudando a integrar los datos en EDW con beneficios de costos. La eficiencia de estas herramientas modernas ayudó a los ingenieros a elaborar análisis sin esquemas, y los modelos comerciales cambiantes están impulsando la vinculación tardía con una vinculación menos temprana. La vinculación está integrando reglas de negocio en los datos. La mayoría de las veces, analizar los datos utilizando estas herramientas modernas además de conjuntos enormes se conoce como análisis de BigData.

El “ almacenamiento de datos ” fue un tema candente en la década de 1990 y una parte de la década de 2000 cuando los requisitos comerciales cambiaron del procesamiento de transacciones al análisis de datos. Ya no, donde tratamos con datos en hojas de Excel, sino que también tuvimos que lidiar con datos en fuentes de datos dispares, como archivos CRM, archivos planos, fuentes ERP, etc. Los datos tuvieron que limpiarse, transformarse y cargarse (ETL) en el almacén de datos que luego se utilizó para generar informes. Como se informó en diferentes sitios web, el “almacenamiento de datos” siempre se considera una arquitectura.

Antes de discutir ‘Big data analytics’, veamos qué se entiende por ‘Big Data’. ‘Big data’ es la gran cantidad de datos no solo de fuentes de datos dispares en una organización sino también de fuera de la organización a partir de fuentes en vivo, videos, redes sociales, etc.

Big Data” también se describe comúnmente con las 3 V de datos, es decir, la velocidad (la misma a la que se generan los datos), el volumen (la enorme cantidad de datos que se generan) y la variedad (los diferentes tipos de datos que se generan)

“Big Data” se ha convertido en “Big”, solo recientemente, ya que los precios de los “datos móviles” han bajado enormemente, permitiendo a las personas aprovechar más Internet. Esto a su vez ha generado más Me gusta, clics, transmisiones en vivo, blogs, compras, ver más videos, lo que ha generado más “Big data” sobre un usuario.

El “análisis de Big Data” está analizando estos “Big Data” para desbloquear los secretos de datos de un usuario para atender más a su interés particular, aumentando así las ganancias para una empresa.

La “analítica de Big Data” es, por lo tanto, una tecnología y podemos aprender ‘Analítica de Big Data’ con ‘R’ o ‘Python’, o ‘Hadoop’.

¡Esperamos que la diferencia entre ‘Almacenamiento de datos’ y ‘Análisis de big data’ se haya explicado bien!

También le recomendaría que asista a una sesión de demostración gratuita sobre Big Data & Analytics para saber más sobre análisis de datos y la industria de big data.

Problema: ¿Cuántas personas hay en la playa el 4 de julio?

Solución 1: Big Data Analytics – mentalidad
Tome una flota de drones quadcopter y haga que tomen miles de instantáneas de las personas en la playa. Descarga muchos gigabytes de archivos JPEG. Utilice un sofisticado software de reconocimiento facial para identificar a las personas y hacer una mejor estimación de conjeturas deduplicando el conjunto de resultados. Dé un número dentro de un intervalo de confianza.

Solución 2: Data Warehouse – con mentalidad
Bloquee todo acceso a la playa. No permita que nadie entre hasta que pase su licencia de conducir o una identificación con foto. Consulte la base de datos, obtenga un recuento exacto.

El análisis de big data es lo que es porque hace suposiciones a partir de datos que no están estructurados para responder preguntas específicas. El almacenamiento de datos es lo que es porque absolutamente estructura el dominio para la recopilación de datos de acuerdo con un propósito. En un mundo ideal, todas las suposiciones de análisis de big data evolucionan a la estructura del almacén de datos.

Entonces, el ‘análisis de big data’ esencialmente significa datos no estructurados ineficientes + adivinanzas inteligentes. Todas las transacciones con tarjeta de crédito en el mundo están estructuradas en el almacén de datos, y siempre lo han sido. Pero eso no es ‘datos pequeños’.

Los enfoques híbridos actuales incluyen el almacén de datos lógicos para producir resultados analíticos de fuentes estructuradas, según: http://www.iri.com/blog/data-tray el lago de datos para experimentar con análisis en fuentes estructuradas y no estructuradas (con gobernanza potencialmente impuesto: http://www.iri.com/blog/business

More Interesting

¿Orientación profesional para personas de 25 años de edad con inclinación cuantitativa con datos / habilidades de programación?

¿Cuáles son algunos campos de proyecto de big data?

¿Qué áreas de negocio impulsadas por los resultados del análisis de datos?

Big data es utilizado por los científicos de datos. ¿Quién traduce esta información para que la gerencia mejore o desarrolle estrategias de gestión y operaciones?

¿Qué tan difícil es obtener la admisión para una maestría en ciencias de datos en una buena universidad en los Estados Unidos?

¿Cuál es la mejor institución para aprender un curso de análisis de negocios / ciencia de datos en Hyderabad?

¿Es cierto que si no eres muy bueno con los números y las estadísticas, no puedes ser bueno en el análisis de datos?

¿Qué tema debo elegir, minería de datos o diseño del compilador?

Cuando un científico de datos descubre un patrón de mercado constante, ¿cómo puede saber cuánto durará? Si es fugaz, explotarlo no tendrá sentido.

¿La ciencia de datos y la IA están relacionadas de alguna manera?

¿Cómo es útil la econometría tradicional como la que se enseña en los programas de posgrado en economía para los científicos de datos en la práctica?

¿Habrá escasez de especialistas en aprendizaje automático?

¿Qué habilidades necesito para construir un sitio web basado en big data?

¿Big Data es una palabra de moda sobrevalorada o es realmente algo con sustancia? ¿Cuáles son las áreas donde los grandes datos han sido evidentemente disruptivos y transformadores?

¿Cuál es una excelente manera de aprender a usar las funciones en paquetes como Ggplot2 y Pandas en R y Python?