¿Cuál es la diferencia entre big data y DBMS?

“Big data” es una palabra de moda, pero se asigna a una clase de casos de uso que generalmente se consideran como minería de datos y análisis. Tenga en cuenta que si bien algunas aplicaciones de big data implican grandes cantidades de datos, muchas de ellas no lo hacen: “big data” se trata más de cómo se buscan y analizan los datos en comparación con el tamaño de los datos en sí. En el contexto de esta pregunta, “big data” es una propiedad de los datos y la aplicación, y no hace referencia a las herramientas de software utilizadas para analizar los datos.

Tenga en cuenta que no todas las aplicaciones que involucran grandes cantidades de datos son aplicaciones de “big data”; una aplicación de minería de informes de delitos utilizada por un departamento de policía es una aplicación de big data incluso si el informe de delitos db es de solo unos cientos de megabytes, mientras que el sistema de débito y aprobación de tarjetas de crédito Visa es una aplicación de procesamiento de transacciones en línea, y no una aplicación de big data – incluso si el db involucrado es un gran número de terabytes.

“RDBMS” se refiere a motores de bases de datos relacionales. A menudo se usan con aplicaciones de big data, aunque algunas aplicaciones de big data usan motores NoSQL, otras usan ambos, y muchas aplicaciones no usan motores db en absoluto.

Creo que está mal pensar en Big Data y DBMS en cuanto a temas que se pueden comparar.

Una base de datos es una entidad estructurada, destinada a almacenar, recuperar y analizar un tipo particular de datos, bien ordenados en registros (conjuntos de datos) y campos (componentes de conjuntos de datos). Tales como listas de direcciones, listas de clientes.

Una base de datos puede tener (y en todas las aplicaciones prácticas no triviales tendrá) múltiples tablas con diferentes tipos de registros, interrelacionados por claves predefinidas.

Big Data, por el contrario, no es una estructura, ni siquiera una metodología claramente definida. En su origen está la declaración más o menos trivial de que cuando tiene datos “suficientes”, puede hacer declaraciones y predicciones precisas sobre personas, grupos, eventos y todo eso. Big Data es, por lo tanto, un tipo de análisis de datos.

Con este fin, se han desarrollado muchas herramientas para gestionar grandes cantidades de datos. La más conocida es la metodología Map-Reduce, desarrollada por Google. Otros conceptos interesantes son, por ejemplo. Hadoop

El principal problema en el análisis de Big Data es obtener algo de datos aparentemente no estructurados de muchas fuentes diferentes (bases de datos estructuradas, archivos de texto, datos de redes sociales, informes meteorológicos, informes de tráfico, …). De eso se trata Map-Reduce y Hadoop.

Los pasos intermedios y finales en el proceso son los análisis de datos clásicos, como la correlación, donde se aplican las herramientas conocidas como R o SPMS.

Hay muchos desafíos en el dominio de TI. Por lo general, el análisis debe realizarse en varios servidores en paralelo, y ese es solo un ejemplo.

Big data significa un conjunto de datos que es grande, ya sea porque tiene muchas variables o muchas observaciones o ambas.

Los grandes datos a menudo (pero de ninguna manera siempre) se refieren a datos que no se recopilan teniendo en cuenta los fines analíticos.

Big Data es una palabra de moda que implica lo que la persona que lo usa quiere implicar.

Un DBMS (sistema de gestión de bases de datos) es un sistema de software que le permite almacenar y recuperar datos de manera eficiente y organizada.

Algunos sistemas de bases de datos siguen la mayoría de estas reglas, y algunos solo solo ciertas reglas.

DBMS no admite distribuido, pero SQL admite.

Respuesta corta

Big Data es una palabra de moda que hemos aprendido a usar cuando los datos son demasiado grandes para manejarlos en los medios tradicionales.
DBMS es un término genérico para un sistema de software que maneja sus datos “tradicionales” en estilos tradicionales.

Respuesta larga

Si eres un estudiante o practicante de ciencias de la computación, ya tienes una idea sobre DBMS. No vamos a entrar en eso. Hablemos de Big Data.

Hemos estado almacenando una gran cantidad de datos desde el momento en que IBM gobernaba el mundo. Los datos seguían creciendo y el crecimiento exponencial de las computadoras e Internet, y de repente llegamos a un punto en que los sistemas actuales no podían trabajar para nosotros. Teníamos datos de redes sociales, correos electrónicos, sistemas de transacciones, incluso haga clic en los registros cada vez que haga clic en algo. Hubo dos problemas principales: –
1. ¿Cómo almacenar esos datos?
2. ¿Qué hacer con esos datos?

Quizás el profesor Francis X. Diebold es el culpable que utilizó este término por primera vez en alguna literatura relacionada con la economía en 2003 . “Modelos de factores dinámicos de Big Data para la medición macroeconómica y el pronóstico”. Otros sospechosos son Erik Larson y John Mashey . Pero las cosas estaban bien hasta finales de 2010, cuando la referencia habitual a Big Data se convirtió en un término llamado Big Data (las mayúsculas importan).

El informe especial en un diario semanal llamado Nature difundió este término en septiembre de 2008 en su edición especial en Big Data donde discutieron las capacidades de almacenamiento y procesamiento de la escala de petabytes de Google, y la próxima tendencia en almacenamiento, disputas y análisis de datos. Mientras tanto, Hadoop se estaba abriendo camino en el mercado y parecía una buena solución para todos los problemas nuevos. Para 2011-12, Cloud Computing y Big Data estaban en todas partes.

Mientras tanto, las comunidades en línea siguieron esta tendencia y los especialistas en marketing comenzaron a usar este término para separarse del resto de la multitud “DBMS pasada de moda”. En 2012, Boyd y Crawford publicaron un artículo donde explicaban Big Data como:

Un fenómeno cultural, tecnológico y académico que se basa en la interacción de:
(1) Tecnología: maximizando la potencia de cálculo y la precisión algorítmica para recopilar, analizar, vincular y comparar grandes conjuntos de datos.
(2) Análisis: aprovechando grandes conjuntos de datos para identificar patrones para hacer reclamos económicos, sociales, técnicos y legales.
(3) Mitología: la creencia generalizada de que los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento que puede generar ideas que antes eran imposibles, con el aura de verdad, objetividad y precisión.

Al mismo tiempo, los educadores se dieron cuenta de la fiebre del oro. Para 2012, ciudades como Hyderabad y Bangalore tenían cientos de institutos de capacitación que prometían a sus estudiantes que los convertirían en “expertos en Big Data”. Las cosas eran similares en el lado opuesto del mundo. El bombo estaba encendido. Los desarrolladores regulares que querían cambiar a un nuevo dominio les dieron un buen negocio. Hadoop se convirtió en otra palabra normal. Todos los días hay al menos un feed en mi página de inicio de LinkedIn que menciona Big Data.

Mi perspectiva y conclusión:

No sigas la frase. Quizás esté deseando trabajar en este dominio. No hay nada llamado Big Data. Tienes que aprender herramientas y paradigmas. Puede comenzar con Hadoop y profundizar en su ecosistema. Puede buscar herramientas NoSQL (a diferencia de RDBMS) como MongoDB (más fácil de aprender, en mi opinión) o Neo4J que le proporcionaría una perspectiva totalmente diferente de los datos, mientras que garantiza las capacidades de escalado horizontal (no se preocupe si los datos crecen), Redundancia (no se preocupe si algo falla) y procesamiento distribuido (no se preocupe si los cálculos son complejos). Otra alternativa es entrar en Analytics en lugar de Infraestructura o desarrollo de software. Hay buenos cursos gratuitos en línea.

Otras lecturas:

¿Cómo comienzo en Big Data con Python?
¿Cómo debería alguien comenzar a aprender el análisis de Big Data?
Soy un MBA, profesional de comunicaciones de marketing con más de 15 años de experiencia. Tengo curiosidad por entrar en Big Data. ¿Cuál sería el trabajo ideal para mí en el ámbito de Big Data?

“Grande”. Eso es en una palabra. Más profundo, Big data es realmente conocido porque está diseñado para proporcionar la capacidad de leer datos con una latencia extremadamente baja, incluso cuando el tamaño de los datos aumenta a unos pocos terabytes. RDBMS generalmente se rinde a estas escalas. Tampoco pueden darle un desempeño satisfactorio.

Grande significa grande, pero lo que es grande para algunos no es tan grande para otros.

La mayoría de los sistemas RDBMS de alto grado son perfectamente felices al manejar terabytes de datos; muchos son bastante razonables con petabytes. Muchas de las personas que mordisquean soluciones de “big data” lo están haciendo con pequeños problemas de datos que, en el caso más optimista, se convertirán en problemas de datos medianos. Puede ser desaconsejable que una pareja joven compre un autobús del aeropuerto como su transporte principal anticipándose a las futuras necesidades de crecimiento.

Big data incluye varios marcos de cómputo, como la reducción de mapas, en la computación Spark en memoria, así como los sistemas DBMS. Big data se enfoca en manejar un volumen de datos extremadamente grande, DBMS se enfoca en la búsqueda de datos en tiempo real.