¿Hay un umbral de tamaño sobre el cual los datos se convierten en grandes datos?

¡No! Esa es la parte divertida de esto.

Varias definiciones explican los grandes datos como un conjunto que promete varias ‘V’. Volumen, velocidad, veracidad, variedad, etc. Por lo general, cuando no puede almacenar o procesar datos en un servidor de un solo nodo, puede llamarlo big data con seguridad.

Supongamos que tiene un conjunto de datos bastante simple: digamos 200 MB de comentarios de su blog y solo desea almacenarlos e indexarlos para una búsqueda rápida. Una máquina estándar con SSD de 128 GB que se ejecuta en su computadora portátil es más que suficiente. Puedo comprar un servidor con 2 TB de almacenamiento, 16 GB de RAM y procesador de cuatro núcleos. Lo que puedo procesar en esa máquina tampoco puede llamarse como big data.

Ahora, si tengo 1TB de tweets de los feeds de mis clientes, y quiero crear un módulo de aprendizaje automático que califique su sentimiento de mercado basado en eso, fracasaría. Tendré que escalar, obtener un clúster de diez nodos. Lo analizaré en una representación vectorial que contiene millones de filas y columnas (características). Entrenar a mi modelo en él. Ahora ese es el punto en los requisitos de almacenamiento y requisitos funcionales cuando las personas comienzan a llamar a los datos como Big Data.

Ahora al final se reduce a aspectos comerciales. Puedo obtener una máquina o clúster de Teradata que me cobra alrededor de $ 30,000 por TB. Mientras tanto, puedo comprar Dell PowerEdge R620 por $ 3500, agregar almacenamiento adicional dentro de $ 100, estoy listo. Me proporciona procesadores duales de ocho núcleos, carneros de 32 GB con costos mucho menores. Que es mejor para mi Por lo tanto, mis límites pasados ​​para definir big data en tamaño fallan.

Pero ahora si recibo datos de 1TB todos los días, este servidor Dell no sobrevivirá por mucho tiempo. Aquí están los próximos dolores de cabeza: ¿Dónde almacenar nuevos datos? ¿Cómo procesar datos de rápido crecimiento y entrenar mis modelos de ML? ¿Qué sucede si también tengo que comenzar a procesar imágenes con los tweets?

Conclusión: no existe una regla que defina Big Data en volumen. Wikipedia dice:

Cuando se hace difícil almacenar, buscar, analizar, compartir, etc., una cantidad dada de datos utilizando nuestras herramientas tradicionales de administración de bases de datos, ese conjunto de datos grande y complejo se llama Bigdata.

Por lo tanto, los datos en cientos de terabytes se convierten automáticamente en big data.

ps No prefiero usar el término Big Data. Tengo datos Si es posible trabajar con él en una sola máquina, lo haría. De lo contrario, escalaría a un entorno distribuido y usaría un marco como Hadoop.

No exactamente. Los datos pueden tener cualquier forma, ya sea estructurada, semiestructurada o no estructurada.

Big Data sigue el concepto de 3V que es Velocidad, Variedad, Volumen de datos. No tienen ninguna limitación en el mundo de Big data, los datos fluyen libremente en el mundo de Big data. Las herramientas de Big Data tienen tanta capacidad para manejar una gran cantidad de datos, pueden manejar datos que son iguales a la Tierra (incluyendo la tierra y el mar).

El tamaño no puede ser el umbral para Big Data, así que agregue más y más datos tanto como desee.

Esto puede estar relacionado con su pregunta.
La respuesta de Shehroz Khan a ¿Cuál es la diferencia entre big data, gran conjunto de datos, flujo de datos y transmisión de datos?

More Interesting

¿Cuáles son algunos materiales de lectura de calidad para la ciencia de datos?

¿Cómo hacemos un envío de código en Kaggle?

¿Qué campo tiene mejores perspectivas de carrera, Big data o data science?

¿Cuáles son algunas aplicaciones de la ciencia de datos en neurociencia?

¿En qué es más fácil convertirse en desarrollador web o científico de datos?

Cómo convertirse en un científico de datos en 4-5 meses si no tengo experiencia previa con ningún lenguaje de programación

¿Por qué Java no se considera apropiado para ML / ciencia de datos / aprendizaje profundo?

¿Cuáles son los procesos involucrados en el servicio de anexión de datos?

¿Qué es la evidencia anecdótica en la ciencia? ¿Cómo se usa?

¿Cómo analizar los datos en R? ¿Cómo hago para el análisis? Tengo datos y quiero analizar, ¿qué debo hacer?

¿Qué tipo de herramientas de colaboración reducirían la duplicación del esfuerzo de I + D en el análisis y el intercambio de datos?

¿Hasta qué punto son aplicables las leyes de privacidad de la UE, por ejemplo, el derecho al olvido, a las empresas que dependen de modelos personalizados de aprendizaje automático?

¿Los científicos de datos suelen utilizar el análisis discriminante lineal? ¿Por qué o por qué no?

Cómo manejar la agrupación supervisada en datos de Monte Carlo para entrenar un algoritmo para agrupar datos reales con patrones similares

¿Qué debo hacer para convertirme en analista de datos una vez que mi título esté completo?