Poniendo todo en términos laicos:
La base de datos es un sistema de gestión para sus datos y cualquier cosa relacionada con esos datos. Es como una biblioteca gigante de archivos de Excel. Cada archivo de Excel es una tabla en una base de datos. Los datos se almacenan en el archivo de Excel (la base de datos realmente almacena datos en un archivo). Tiene una biblioteca de archivos de Excel, toda esa biblioteca se llama una base de datos.
También hay secuencias, índices, disparadores, almacenamiento de procesos y funciones, etc., pero están ahí para ayudarlo a acceder a los datos más rápido o ayudarlo a mover / manipular datos.
- Cómo detectar generalmente un fraude usando análisis
- ¿Puedo duplicar los mismos datos para una tarea de clasificación en términos de aumento de datos?
- ¿Cuáles son algunas de las nuevas empresas de Big Data en Mumbai?
- ¿Qué reglas de la regla de asociación debería sugerir a los usuarios finales?
- Cómo probar A / B una nueva aplicación de mensajería sin restringir con qué miembros pueden hablar (es decir, los miembros en el grupo de "prueba" aún pueden enviar mensajes a los miembros en el grupo de "control")
De todos estos elementos, la base de datos es la base en la que se basa todo lo demás.
Data Warehouse está construido sobre una base de datos.
Imagina que tienes una gran biblioteca de libros, esa es tu base de datos. Usted pregunta “¿cuántas recetas de pollo hay en esta biblioteca?” Bueno, debe buscar debajo de la sección de cocina, la sección de procedimientos, la sección de viajes para cocinar en sabores locales, la sección de salud para una cocina saludable, etc. etc.
En un almacén de datos, si desea ver recetas, alguien creará un libro para usted llamado todas las recetas, con pollo, carne de res y cerdo bien etiquetados; tendrían que tomar todas las recetas de todos los libros y ponerlas en un libro para usted.
Data Warehouse son datos que tiene en otras bases de datos pero organizados específicamente para las preguntas que desea hacer.
En contraste, las “otras bases de datos” son bases de datos operacionales organizadas específicamente para que usted pueda administrar su negocio / sitio web de manera rápida y eficiente.
Data Mart es parte de un Data Warehouse. Para escribir ese libro en todas las recetas de todos los demás libros, necesitaría mucha investigación; necesita ver si estas dos recetas son iguales (si es así, solo ponga una de ellas allí), necesita mirar recetas incompletas (¡alguien arrancó una página de este libro!) y sacarlas, usted necesitará traducir recetas de otros idiomas al idioma que desean sus lectores (no creía que solo las personas de habla inglesa cocinaban pollo, ¿verdad?)
Para resolver todos esos detalles, tendrá hojas de trabajo intermitentes, desea escribir meta libros (donde enumera todos los libros que tienen recetas, números de página sobre dónde están esas recetas en el libro; ya sabes, un libro sobre otros libros) . Estos libros también están en su Data Warehouse, pero a sus lectores no les importan, quieren las “TODAS las recetas para todas las cosas de todo el mundo conocido”, o “todas las posibles consecuencias de todas las acciones tomadas por todas las personas en todo hora”. Estos libros finalizados son lo que llamamos Data Mart.
Sus lectores hojearán este libro de recetas multidimensional, pueden buscar por carne, o región, o religión, o tipos de curso, o nivel de picante, o lo que sea, porque lo organizamos de todas las formas posibles. Si quieren encontrar el “plato principal para el pollo que tiene picante de 3 o menos, independientemente de las regiones del mundo”, pueden hacer una lista, hacer un recuento de cuántos o resumir cuánto pollo y especias se necesitan. cocinar cada una de esas recetas.
Esto es lo que un Data Mart puede hacer por usted. Lo llamamos rebanar y cortar en cubitos, que no está relacionado con las recetas o la cocina …
Data Cube es muy similar a un Data Mart. Si Data Mart es una colección de estos libros finalizados, un Data Cube es un libro.
Otros argumentarán que es diferente a una tabla de hechos (los libros finalizados en nuestro ejemplo) en el Data Mart, pero no pueden proporcionar ningún argumento sólido sobre los beneficios de diferenciarlos. Básicamente solo discuten por el argumento y tratan de sonar bien.
Data Cube puede ser denso (en realidad, una de las únicas diferencias entre Data Cube y Data Mart). Imagine una hoja de Excel, al cruzar, tiene género como etiquetado como masculino, femenino, desconocido. Bajando tienes rango de salario, 0 – 50k, 50k – 100k, 100k +. Ahora tiene una matriz 3 × 3 con celdas vacías. En esas celdas vas a poner los nombres de las personas que pertenecen allí. Obtienes Bob en Hombre, 50k – 100k, Josy en Mujer, 100k +. El resto está vacío.
En un cubo, puede tener esos espacios vacíos como marcadores de posición; en un centro comercial, ni siquiera creas esos marcadores de posición. En un cubo, tiene 9 filas (3 × 3), con muchas de ellas vacías aparte de sus valores de dimensión. En un centro comercial, tienes dos registros, siendo Bob y Josy.
La gente argumenta que el que tiene un marcador de posición es más rápido de leer, ignore a esas personas.
Data Lake es cuando su Data Warehouse se inunda de manera que todo lo que ve es agua. Ok, es broma.
¿Recuerdas que dije que Data Mart son los libros finalizados mientras que Data Warehouse tiene algunos meta libros, libros temporales que escribiste solo para organizar tus pensamientos? Esos libros, junto con las copias originales de esos libros de viajes, libros de instrucciones, libros de recetas en idiomas extranjeros es su Data Lake.
Data Lake es un volcado de todas esas copias originales (tenga en cuenta que no son originales, sino copias exactas), además de meta libros, etc. No le ayuda a organizarse más. Puede que a los lectores no les guste la forma en que organizas tu libro de recetas finalizado, o tal vez él / ella pueda hacerlo más rápido para que no quieran esperarte, o tal vez no confíen en que tu libro sea preciso (tu traducción es mal, cometes errores de ortografía, confundes pollo con carne de res !!! Las gallinas tienen alas … ¡hola!?!), por la razón que sea, no quieren que TÚ hagas el trabajo duro, quieren hacerlo sí mismos.
Tendrán que crear también sus propios meta libros, sus libros intermitentes; y tienen que marcar en los originales para hacer notas y cosas (ya sabes, ¡MATERIAL!), así que haces COPIAS originales (¡ajá! ¡Es por eso que te digo que notes las COPIAS antes, ¿ves? ¡¡Tengo un punto !! !!). Marcan las copias tanto como les gusta, crean tantos meta libros y libros temporales como deseen. Simplemente les das un lugar para hacer eso, ese lugar se llama Data Lake.
Data Swamp es un Data Lake completamente seco y moribundo. No estoy bromeando. Imagina lo que sucede cuando todos tus lectores hacen el trabajo ellos mismos, pero quieren ver el mismo libro de recetas finalizado, letra por letra. Cada uno tiene que hacer su propio trabajo en Data Lake, gastando el tiempo y los recursos una y otra vez solo para obtener el mismo resultado. ¿Por qué? ¿Por qué no lo haces TU una vez y les das copias de tu libro? Bueno, eso tendría más sentido, por lo que todos regresan a Data Mart donde TÚ escribes el libro una vez y esta vez, te esperan porque tienen malas traducciones, también son lentas, pero han estado en el lago y fueron a través de ese dolor para que sepan tener paciencia.
Como nadie está utilizando el Lago de datos, nadie está gastando dinero para mantenerlo limpio; lentamente se pudre, se seca y tiene cosas raras que crecen en él. La próxima vez que lo mires, se convierte en un pantano.
En realidad, Data Lake tiene sus propósitos. Si lo está utilizando en los lugares correctos en el momento adecuado, sigue siendo un lago prístino.
Bienvenido al mundo de los datos… .stuff.