¿Cuál es la diferencia entre big data y DBMS?

“Big data” es una palabra de moda, pero se asigna a una clase de casos de uso que generalmente se consideran como minería de datos y análisis. Tenga en cuenta que si bien algunas aplicaciones de big data implican grandes cantidades de datos, muchas de ellas no lo hacen: “big data” se trata más de cómo se buscan y analizan los datos en comparación con el tamaño de los datos en sí. En el contexto de esta pregunta, “big data” es una propiedad de los datos y la aplicación, y no hace referencia a las herramientas de software utilizadas para analizar los datos.

Tenga en cuenta que no todas las aplicaciones que involucran grandes cantidades de datos son aplicaciones de “big data”; una aplicación de minería de informes de delitos utilizada por un departamento de policía es una aplicación de big data incluso si el informe de delitos db es de solo unos cientos de megabytes, mientras que el sistema de débito y aprobación de tarjetas de crédito Visa es una aplicación de procesamiento de transacciones en línea, y no una aplicación de big data – incluso si el db involucrado es un gran número de terabytes.

“RDBMS” se refiere a motores de bases de datos relacionales. A menudo se usan con aplicaciones de big data, aunque algunas aplicaciones de big data usan motores NoSQL, otras usan ambos, y muchas aplicaciones no usan motores db en absoluto.

Respuesta corta

Big Data es una palabra de moda que hemos aprendido a usar cuando los datos son demasiado grandes para manejarlos en los medios tradicionales.
DBMS es un término genérico para un sistema de software que maneja sus datos “tradicionales” en estilos tradicionales.

Respuesta larga

Si eres un estudiante o practicante de ciencias de la computación, ya tienes una idea sobre DBMS. No vamos a entrar en eso. Hablemos de Big Data.

Hemos estado almacenando una gran cantidad de datos desde el momento en que IBM gobernaba el mundo. Los datos seguían creciendo y el crecimiento exponencial de las computadoras e Internet, y de repente llegamos a un punto en que los sistemas actuales no podían trabajar para nosotros. Teníamos datos de redes sociales, correos electrónicos, sistemas de transacciones, incluso haga clic en los registros cada vez que haga clic en algo. Hubo dos problemas principales: –
1. ¿Cómo almacenar esos datos?
2. ¿Qué hacer con esos datos?

Quizás el profesor Francis X. Diebold es el culpable que utilizó este término por primera vez en alguna literatura relacionada con la economía en 2003 . “Modelos de factores dinámicos de Big Data para la medición macroeconómica y el pronóstico”. Otros sospechosos son Erik Larson y John Mashey . Pero las cosas estaban bien hasta finales de 2010, cuando la referencia habitual a Big Data se convirtió en un término llamado Big Data (las mayúsculas importan).

El informe especial en un diario semanal llamado Nature difundió este término en septiembre de 2008 en su edición especial en Big Data donde discutieron las capacidades de almacenamiento y procesamiento de la escala de petabytes de Google, y la próxima tendencia en almacenamiento, disputas y análisis de datos. Mientras tanto, Hadoop se estaba abriendo camino en el mercado y parecía una buena solución para todos los problemas nuevos. Para 2011-12, Cloud Computing y Big Data estaban en todas partes.

Mientras tanto, las comunidades en línea siguieron esta tendencia y los especialistas en marketing comenzaron a usar este término para separarse del resto de la multitud “DBMS pasada de moda”. En 2012, Boyd y Crawford publicaron un artículo donde explicaban Big Data como:

Un fenómeno cultural, tecnológico y académico que se basa en la interacción de:
(1) Tecnología: maximizando la potencia de cálculo y la precisión algorítmica para recopilar, analizar, vincular y comparar grandes conjuntos de datos.
(2) Análisis: aprovechando grandes conjuntos de datos para identificar patrones para hacer reclamos económicos, sociales, técnicos y legales.
(3) Mitología: la creencia generalizada de que los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento que puede generar ideas que antes eran imposibles, con el aura de verdad, objetividad y precisión.

Al mismo tiempo, los educadores se dieron cuenta de la fiebre del oro. Para 2012, ciudades como Hyderabad y Bangalore tenían cientos de institutos de capacitación que prometían a sus estudiantes que los convertirían en “expertos en Big Data”. Las cosas eran similares en el lado opuesto del mundo. El bombo estaba encendido. Los desarrolladores regulares que querían cambiar a un nuevo dominio les dieron un buen negocio. Hadoop se convirtió en otra palabra normal. Todos los días hay al menos un feed en mi página de inicio de LinkedIn que menciona Big Data.

Mi perspectiva y conclusión:

No sigas la frase. Quizás esté deseando trabajar en este dominio. No hay nada llamado Big Data. Tienes que aprender herramientas y paradigmas. Puede comenzar con Hadoop y profundizar en su ecosistema. Puede buscar herramientas NoSQL (a diferencia de RDBMS) como MongoDB (más fácil de aprender, en mi opinión) o Neo4J que le proporcionaría una perspectiva totalmente diferente de los datos, mientras que garantiza las capacidades de escalado horizontal (no se preocupe si los datos crecen), Redundancia (no se preocupe si algo falla) y procesamiento distribuido (no se preocupe si los cálculos son complejos). Otra alternativa es entrar en Analytics en lugar de Infraestructura o desarrollo de software. Hay buenos cursos gratuitos en línea.

Otras lecturas:

¿Cómo comienzo en Big Data con Python?
¿Cómo debería alguien comenzar a aprender el análisis de Big Data?
Soy un MBA, profesional de comunicaciones de marketing con más de 15 años de experiencia. Tengo curiosidad por entrar en Big Data. ¿Cuál sería el trabajo ideal para mí en el ámbito de Big Data?

Karthika

“Grande”. Eso es en una palabra. Más profundo, Big data es realmente conocido porque está diseñado para proporcionar la capacidad de leer datos con una latencia extremadamente baja, incluso cuando el tamaño de los datos aumenta a unos pocos terabytes. RDBMS generalmente se rinde a estas escalas. Tampoco pueden darle un desempeño satisfactorio.

Karthika

Grande significa grande, pero lo que es grande para algunos no es tan grande para otros.

La mayoría de los sistemas RDBMS de alto grado son perfectamente felices al manejar terabytes de datos; muchos son bastante razonables con petabytes. Muchas de las personas que mordisquean soluciones de “big data” lo están haciendo con pequeños problemas de datos que, en el caso más optimista, se convertirán en problemas de datos medianos. Puede ser desaconsejable que una pareja joven compre un autobús del aeropuerto como su transporte principal anticipándose a las futuras necesidades de crecimiento.

David Brower

Big data incluye varios marcos de cómputo, como la reducción de mapas, en la computación Spark en memoria, así como los sistemas DBMS. Big data se enfoca en manejar un volumen de datos extremadamente grande, DBMS se enfoca en la búsqueda de datos en tiempo real.

David Brower

More Interesting

Cómo usar Simplescalar para crear un proyecto de ciencia de datos

¿Cómo se transfiere una persona trabajadora a tiempo completo a la ciencia de datos?

¿Es realista construir algoritmos de aprendizaje automático complejos a gran escala en la producción? (

¿Se reemplazará la econometría por la ciencia de datos?

¿Cómo manejan las empresas el análisis cooperativo de datos que preserva la privacidad? ¿Hay algunos casos reales?

¿Qué tan grandes fueron las primeras computadoras? ¿Por qué eran tan grandes?

¿Hay alguna limpieza de datos para hacer con cresta y lazo?

¿Qué es el munging de datos? ¿Cómo se puede usar en una oración? ¿Hay algunos sinónimos? ¿De dónde viene la frase?

¿Cuál es la diferencia entre Big Data y Hadoop?

¿MATLAB es más popular y útil para la investigación que Python? ¿Por qué?