Para obtener el concepto completo, debe agregar una categoría más de Base de datos operativa, o transacciones de sus operaciones diarias. Los tipos de consultas en un Operational generalmente se basan en procesos y permiten el análisis de datos en tiempo real.
El Almacén de datos se usa generalmente para almacenar datos históricos (parcialmente provenientes de las SAO) y las consultas generalmente se basan en temas y se utilizan análisis profundos para ayudar a obtener valor comercial de fuentes de datos integradas y posiblemente fuentes de datos externas también (datos de competencia, clima datos, etc.).
Supongo que sabe qué es Big Data, ya que no solo es necesariamente de gran volumen, porque su almacén de datos ciertamente puede abarcar múltiples petabytes de datos. Los grandes datos generalmente son datos no estructurados o semiestructurados, lo que significa que no están estructurados de manera que se almacenen y procesen fácilmente en una base de datos relacional; procesado más específicamente en SQL.
- ¿Qué haces cuando tu modelo falla la validación cruzada?
- ¿Cómo es una entrevista de científico de datos en Yelp?
- ¿Cómo explicará la precisión media promedio ( [correo electrónico protegido] ) a un cliente comercial en una sola oración?
- ¿Podemos hacer aprendizaje automático escalable con R? ¿Puede R trabajar con Hadoop para procesar una matriz de 100 GB?
- Buscando una visión general de las ideas de big data que podrían derivarse al analizar la cadena de bloques de Bitcoin. ¿Qué es posible los niveles masivos dados de adopción comercial? ¿La percepción de la cadena de bloques como un indicador económico?
Un ejemplo rápido de registro web de análisis de flujo de clics. Tiene cientos de miles de millones de clics y desea poder encontrar a todas las personas que agregaron cosas a su carrito, comenzaron a pagar, llegaron a la página de precios de envío y abandonaron su carrito. Ese problema es la sesionización y el análisis de ruta basado en series temporales. En SQL es posible, pero MUY complejo e involucra múltiples iteraciones en los datos.
Espero que esto ayude.