La respuesta estándar es la 4 v: variedad, velocidad, volumen y veracidad. Y opcionalmente valor.
La variedad significa esencialmente datos de alta dimensión o datos de múltiples fuentes dispares.
La velocidad esencialmente significa transmisión o datos dinámicos que cambian o se actualizan con frecuencia.
- ¿Quiénes son los mejores expertos en aprendizaje automático (ML)?
- ¿Cuáles son las desventajas comunes de tener un conjunto de datos dispersos al crear un modelo ML?
- ¿Cuáles son las habilidades necesarias para la ciencia de datos?
- Estoy interesado en el aseguramiento de la calidad del software. Necesito entrar en el análisis de big data. ¿Cuáles son los cursos y certificaciones que necesito tomar?
- ¿Cuáles son algunas ideas o proyectos en Machine Learning o análisis de big data en un hackathon?
El volumen esencialmente significa el tamaño o el rendimiento de los datos. Lo suficientemente grande como para no poder manejarlo adecuadamente en el sentido tradicional.
La veracidad significa esencialmente la incertidumbre de los datos. ¿Es representativo, hay lagunas o fragmentos de datos faltantes, hay información contradictoria?
Big data generalmente significa que tiene uno o más de los Vs. Básicamente, los grandes datos son datos que no podemos manejar fácilmente sin algunos trucos / estrategias o una planificación cuidadosa.
Tenga en cuenta que la gran mayoría de los problemas de ciencia de datos no son grandes datos. Y la mayoría de las preguntas comerciales se pueden responder sin big data.
Pero las mejoras en tecnología como spark, Kafka, etc. nos han permitido trabajar con datos mucho más grandes en comparación con el pasado.