No existe la mejor tecnología, es lo mismo que preguntar si una manzana es mejor y ganar un árbol de manzanas.
Big Data es un conjunto de datos que puede calificar como “Big” en función de los criterios de 4V (pueden ser diferentes de una organización a otra):
- Volumen : ¿qué tan grande es grande para ti? ¿Es 1 Tb grande? ¿Son 100 petabytes grandes?
- Variedad : ¿qué tipo de datos son? Extracto de base de datos, hoja de cálculo de Excel, Tweets de redes sociales, texto de correos electrónicos, videos de YouTube.
- Velocidad : ¿está obteniendo nuevos datos a una velocidad de YouTube (videos de 60 minutos cargados por segundo) o es una actualización de un servidor cada 3 meses?
- Veracidad : ¿cuánto confía en sus datos? 100%? 0%? 50%?
- ¿Cuáles son algunos buenos problemas con los juguetes en la ingeniería de datos?
- Cómo agrupar y analizar datos usando Excel
- ¿Qué tecnología está en auge ahora, aparte de Big Data y Hadoop?
- ¿Cuántos conocimientos estadísticos y de probabilidad se requieren para aprender ciencia de datos?
- ¿Big Data es una gran BS?
La mayoría de las veces, Big Data proviene de una fuente no estructurada, como texto, video o sonido, que, a diferencia de los datos estructurados en bases de datos u hojas de cálculo, no tiene un modelo de datos definido. Big Data es inútil , si no puede extraer información de él.
Data Science es un campo de la ciencia que se ocupa de extraer, modelar y visualizar conocimientos de fuentes de datos estructurados y no estructurados y construir las herramientas para esos fines.
Si está considerando dónde comenzar a aprender estos temas, vea mi respuesta: la respuesta de Feyzi Bagirov a ¿Cuál es mi primer paso para convertirme en un científico de datos sin conocimiento académico?