¿Cómo es más útil el Big Data que otros conjuntos de datos?

Big data no es necesariamente más útil que otros conjuntos de datos. Como el autor no definió qué es big data, usaré mi definición favorita de las muchas que existen.


Big data es cuando el tamaño o la escala de una recopilación de datos impide que se entreguen de manera tradicional


A veces, el big data es simplemente un problema de operaciones o entrega. Los grandes datos en el espacio analítico a menudo existen porque los datos finalmente se están utilizando y los SLA y el tiempo de comercialización requieren nuevas técnicas.

Por ejemplo, Hadoop se inventó para resolver el problema ETL de Yahoo cuando la indexación de cada página web en el mundo comenzó a tomar demasiado tiempo. Si pudieran esperar una semana entre cada actualización, podrían haber utilizado los medios tradicionales durante muchos años más antes de innovar para salir del problema.

Ahora hay una economía de escala que ocurre cuando una persona con mentalidad estadística puede tener más puntos de datos en su pregunta que hace que el tamaño y la escala de los datos sean más útiles. Esto puede ser particularmente interesante en la creación de ciertos modelos predictivos. A veces, el tamaño y la escala son más útiles porque reflejan un conjunto de datos más completo centralizado en un solo lugar. Por ejemplo, una gran empresa siempre ha tenido acceso a los datos del punto de venta. Durante años estuvo separado y alojado en diferentes geografías de todo el mundo. Ningún sistema tenía más de un terabytes. Póngalos todos juntos con algo de enriquecimiento, realice algunos análisis muy complejos con un SLA casi en tiempo real y tendrá una solución de big data de varios terabytes de un solo dígito que es mucho más útil que las colecciones de datos separadas descentralizadas.


Insisto en terabytes de un solo dígito porque no creo que sean muchos datos. Sin embargo, cómo se está utilizando y los SLA de entrega involucrados hacen que se ajuste a la definición anterior.

Cuando se hace difícil almacenar, buscar, analizar, compartir, etc., una cantidad dada de datos utilizando nuestras herramientas tradicionales de administración de bases de datos, ese conjunto de datos grande y complejo se llama Bigdata.

Básicamente, todo es relativo. Lo que se considera Bigdata varía según las capacidades de la organización que administra el conjunto de datos. Para algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante.

La cantidad de datos es solo uno de los elementos clave para definir Bigdata. Variety de datos y la velocity a la que aumentan los datos son otros dos elementos principales en la definición de un conjunto de datos para ser Bigdata.

Variety de datos significa tener muchos datos y tipos de archivos diferentes que pueden requerir ser analizados y procesados ​​de manera que esté fuera de los límites de las bases de datos relacionales tradicionales. Algunos ejemplos de esta variedad incluyen archivos de sonido y películas, imágenes, documentos, datos geoespaciales , registros web y cadenas de texto.

Velocity se trata de la velocidad de cambio en los datos y la rapidez con que se debe procesar para generar un valor significativo. Las tecnologías tradicionales son especialmente inadecuadas para almacenar y usar datos de alta velocidad. Por lo tanto, se necesitan nuevos enfoques. Si los datos en cuestión se crean y agregan muy rápidamente y deben usarse rápidamente para descubrir patrones y problemas, cuanto mayor sea la velocidad y más probabilidades hay de tener un problema de Bigdata a mano.

Gracias por la solicitud

Permítanme señalar que esto es más filosófico que práctico. 🙂

La utilidad del conjunto de datos está relacionada con el usuario del conjunto de datos. No el conjunto de datos en sí. Dicho esto, los grandes datos no son más útiles que otros conjuntos de datos. Puede darme el mayor conjunto de datos desde donde se puede crear una hipótesis para la cura del cáncer y le garantizo que no podré encontrarla. Por otro lado, un conjunto de datos con un pequeño conjunto de datos puede suponer una mayor retención en un juego móvil.

A menudo sostengo que Big Data no se trata de datos. Se trata de la tecnología para manejar datos que tienen algunas características específicas. Podemos argumentar que, por medios tradicionales, la mayoría de esos datos no serían posibles de usar, pero el hecho de que ahora podamos usarlos no los hace más útiles que los medios tradicionales.

También se puede argumentar que mediante el uso de tecnologías de Big Data podemos tener datos sobre una población que solo sería posible obtener a través del muestreo y la inferencia. El problema conocido con el muestreo y la inferencia es que no conocemos el valor exacto de las variables de interés, sino que el verdadero valor de esas variables existe dentro de una distribución dada. Con Big Data puede tener el número exacto, sin embargo, el conjunto de datos resultante es exactamente el mismo, por lo que el juego final sigue siendo datos “pequeños”. Incluso con este ejemplo, si realizamos experimentos y creamos productos de aprendizaje automático, todavía nos ocupamos de las mismas preocupaciones sobre probabilidad, estadísticas, etc. más o menos útil que los datos no grandes.

Espero que esto ayude.

Big data no es más que un conjunto de datos que su sistema tradicional no puede manejar. La única diferencia es el tamaño de los datos. También las fuentes donde obtienes los datos. Por lo general, los datos de la máquina, como los datos de flujo de clics, los datos del escáner, los datos de las redes sociales crearían una enorme cantidad de datos cada segundo. El manejo de estos datos es difícil en los métodos tradicionales. Es por eso que el tipo de tecnología Hadoop utilizada para manejar esos conjuntos de datos masivos.

Porque ‘otros datos’ es un subconjunto de Big data.

More Interesting

¿Cuál es el salario promedio de un recién graduado universitario de Data Scientist en India?

Cómo aprender a recuperar, insertar, buscar datos en Big Data

¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son "grandes"?

¿Qué es mejor para un estudiante de análisis de datos para estudiar, aprendizaje automático o series de tiempo? Tenemos que elegir uno como módulo electivo

¿Cuál es un ejemplo de cómo usaste la ciencia de datos para resolver un problema, tomar una decisión u optimizar algo en tu vida personal?

¿Alguna vez ha usado sus habilidades de ciencia de datos para el comercio cuantitativo?

¿Hay algún tipo de versión de conjunto de datos y versión de código, estilo GitHub para Data Science? (más fácil de usar que GitHub)

Como científico de datos, ¿sería útil aprender el desarrollo completo de la pila?

¿Cuándo debe un principiante en ciencia de datos comprender que ha elegido un campo equivocado?

Si pudiera contratar a 4/5 científicos / ingenieros para un equipo de análisis de big data centrado en elegir y responder preguntas comerciales concretas (por ejemplo, predecir una solicitud de producto), ¿cómo lo construiría?

¿Puedo comenzar a aprender ciencia de datos y ser digno de mercado en 6 meses? Acabo de terminar mi maestría en ingeniería mecánica y tengo habilidades de programación muy básicas (solo C) a partir de ahora.

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

¿Cuáles son los mejores libros sobre ciencia de datos?

Para trabajos de ciencia de datos, ¿serán suficientes SAS y R?

¿Ganar una competencia de Kaggle es importante fuera de Kaggle?