¿Hay un umbral de tamaño sobre el cual los datos se convierten en grandes datos? La tecnología cambia la vida futura

¡No! Esa es la parte divertida de esto.

Varias definiciones explican los grandes datos como un conjunto que promete varias ‘V’. Volumen, velocidad, veracidad, variedad, etc. Por lo general, cuando no puede almacenar o procesar datos en un servidor de un solo nodo, puede llamarlo big data con seguridad.

Supongamos que tiene un conjunto de datos bastante simple: digamos 200 MB de comentarios de su blog y solo desea almacenarlos e indexarlos para una búsqueda rápida. Una máquina estándar con SSD de 128 GB que se ejecuta en su computadora portátil es más que suficiente. Puedo comprar un servidor con 2 TB de almacenamiento, 16 GB de RAM y procesador de cuatro núcleos. Lo que puedo procesar en esa máquina tampoco puede llamarse como big data.

Ahora, si tengo 1TB de tweets de los feeds de mis clientes, y quiero crear un módulo de aprendizaje automático que califique su sentimiento de mercado basado en eso, fracasaría. Tendré que escalar, obtener un clúster de diez nodos. Lo analizaré en una representación vectorial que contiene millones de filas y columnas (características). Entrenar a mi modelo en él. Ahora ese es el punto en los requisitos de almacenamiento y requisitos funcionales cuando las personas comienzan a llamar a los datos como Big Data.

Ahora al final se reduce a aspectos comerciales. Puedo obtener una máquina o clúster de Teradata que me cobra alrededor de $ 30,000 por TB. Mientras tanto, puedo comprar Dell PowerEdge R620 por $ 3500, agregar almacenamiento adicional dentro de $ 100, estoy listo. Me proporciona procesadores duales de ocho núcleos, carneros de 32 GB con costos mucho menores. Que es mejor para mi Por lo tanto, mis límites pasados para definir big data en tamaño fallan.

Pero ahora si recibo datos de 1TB todos los días, este servidor Dell no sobrevivirá por mucho tiempo. Aquí están los próximos dolores de cabeza: ¿Dónde almacenar nuevos datos? ¿Cómo procesar datos de rápido crecimiento y entrenar mis modelos de ML? ¿Qué sucede si también tengo que comenzar a procesar imágenes con los tweets?

Conclusión: no existe una regla que defina Big Data en volumen. Wikipedia dice:

Cuando se hace difícil almacenar, buscar, analizar, compartir, etc., una cantidad dada de datos utilizando nuestras herramientas tradicionales de administración de bases de datos, ese conjunto de datos grande y complejo se llama Bigdata.

Por lo tanto, los datos en cientos de terabytes se convierten automáticamente en big data.

ps No prefiero usar el término Big Data. Tengo datos Si es posible trabajar con él en una sola máquina, lo haría. De lo contrario, escalaría a un entorno distribuido y usaría un marco como Hadoop.