¡No! Esa es la parte divertida de esto.
Varias definiciones explican los grandes datos como un conjunto que promete varias ‘V’. Volumen, velocidad, veracidad, variedad, etc. Por lo general, cuando no puede almacenar o procesar datos en un servidor de un solo nodo, puede llamarlo big data con seguridad.
Supongamos que tiene un conjunto de datos bastante simple: digamos 200 MB de comentarios de su blog y solo desea almacenarlos e indexarlos para una búsqueda rápida. Una máquina estándar con SSD de 128 GB que se ejecuta en su computadora portátil es más que suficiente. Puedo comprar un servidor con 2 TB de almacenamiento, 16 GB de RAM y procesador de cuatro núcleos. Lo que puedo procesar en esa máquina tampoco puede llamarse como big data.
- ¿Qué curso de ciencia de datos es mejor para un principiante, el nanodegree analista de datos de Udacity o el curso de ciencia de datos?
- ¿Qué tan comunes son los trabajos de 40 horas / semana de científicos de datos en Google, Microsoft, Facebook y Amazon?
- Buscando una visión general de las ideas de big data que podrían derivarse al analizar la cadena de bloques de Bitcoin. ¿Qué es posible los niveles masivos dados de adopción comercial? ¿La percepción de la cadena de bloques como un indicador económico?
- Acabo de regresar de Strata 2017 y todas las demás botas mostraban una plataforma de ciencia de datos (es decir, Domino). ¿Cuál es tu plataforma favorita y por qué?
- ¿Puedo aprender ciencia de datos o big data?
Ahora, si tengo 1TB de tweets de los feeds de mis clientes, y quiero crear un módulo de aprendizaje automático que califique su sentimiento de mercado basado en eso, fracasaría. Tendré que escalar, obtener un clúster de diez nodos. Lo analizaré en una representación vectorial que contiene millones de filas y columnas (características). Entrenar a mi modelo en él. Ahora ese es el punto en los requisitos de almacenamiento y requisitos funcionales cuando las personas comienzan a llamar a los datos como Big Data.
Ahora al final se reduce a aspectos comerciales. Puedo obtener una máquina o clúster de Teradata que me cobra alrededor de $ 30,000 por TB. Mientras tanto, puedo comprar Dell PowerEdge R620 por $ 3500, agregar almacenamiento adicional dentro de $ 100, estoy listo. Me proporciona procesadores duales de ocho núcleos, carneros de 32 GB con costos mucho menores. Que es mejor para mi Por lo tanto, mis límites pasados para definir big data en tamaño fallan.
Pero ahora si recibo datos de 1TB todos los días, este servidor Dell no sobrevivirá por mucho tiempo. Aquí están los próximos dolores de cabeza: ¿Dónde almacenar nuevos datos? ¿Cómo procesar datos de rápido crecimiento y entrenar mis modelos de ML? ¿Qué sucede si también tengo que comenzar a procesar imágenes con los tweets?
Conclusión: no existe una regla que defina Big Data en volumen. Wikipedia dice:
Cuando se hace difícil almacenar, buscar, analizar, compartir, etc., una cantidad dada de datos utilizando nuestras herramientas tradicionales de administración de bases de datos, ese conjunto de datos grande y complejo se llama Bigdata.
Por lo tanto, los datos en cientos de terabytes se convierten automáticamente en big data.
ps No prefiero usar el término Big Data. Tengo datos Si es posible trabajar con él en una sola máquina, lo haría. De lo contrario, escalaría a un entorno distribuido y usaría un marco como Hadoop.