¿Cuál es la mejor tecnología, ciencia de datos o big data?

No existe la mejor tecnología, es lo mismo que preguntar si una manzana es mejor y ganar un árbol de manzanas.

Big Data es un conjunto de datos que puede calificar como “Big” en función de los criterios de 4V (pueden ser diferentes de una organización a otra):

  • Volumen : ¿qué tan grande es grande para ti? ¿Es 1 Tb grande? ¿Son 100 petabytes grandes?
  • Variedad : ¿qué tipo de datos son? Extracto de base de datos, hoja de cálculo de Excel, Tweets de redes sociales, texto de correos electrónicos, videos de YouTube.
  • Velocidad : ¿está obteniendo nuevos datos a una velocidad de YouTube (videos de 60 minutos cargados por segundo) o es una actualización de un servidor cada 3 meses?
  • Veracidad : ¿cuánto confía en sus datos? 100%? 0%? 50%?

La mayoría de las veces, Big Data proviene de una fuente no estructurada, como texto, video o sonido, que, a diferencia de los datos estructurados en bases de datos u hojas de cálculo, no tiene un modelo de datos definido. Big Data es inútil , si no puede extraer información de él.

Data Science es un campo de la ciencia que se ocupa de extraer, modelar y visualizar conocimientos de fuentes de datos estructurados y no estructurados y construir las herramientas para esos fines.

Si está considerando dónde comenzar a aprender estos temas, vea mi respuesta: la respuesta de Feyzi Bagirov a ¿Cuál es mi primer paso para convertirme en un científico de datos sin conocimiento académico?

Big data utiliza estadísticas y conceptos inductivos de la identificación de sistemas no lineales para inferir leyes (regresiones, relaciones no lineales y efectos causales) de grandes conjuntos de datos con baja densidad de información para revelar relaciones y dependencias, o para realizar predicciones de resultados y comportamientos.

mientras,

Los científicos de datos utilizan sus datos y su capacidad analítica para encontrar e interpretar fuentes de datos enriquecidas. Administre grandes cantidades de datos a pesar de las limitaciones de hardware, software y ancho de banda; fusionar fuentes de datos. Garantizar la coherencia de los conjuntos de datos. crear visualizaciones para ayudar a comprender los datos. Construir modelos matemáticos utilizando los datos. Presente y comunique los conocimientos / hallazgos de datos. A menudo se espera que produzcan respuestas en días en lugar de meses, que trabajen mediante análisis exploratorios e iteraciones rápidas, y que produzcan y presenten resultados con tableros (pantallas de valores actuales) en lugar de documentos / informes, como normalmente hacen los estadísticos.

Y como lo cita Harvard Buisness Review, ‘Data Scientist’ es “El trabajo más sexy del siglo XXI”

Desde mi punto de vista … Ambas son tecnologías conectadas, pero los científicos de datos son mejores tecnólogos.

Big data es una colección de grandes volúmenes de datos que no pueden procesarse utilizando los sistemas tradicionales de administración de bases de datos. Esta gran cantidad de datos proviene de varias fuentes, como teléfonos inteligentes, Twitter, Facebook y otras fuentes. Según diversas encuestas, el 90% de los datos mundiales se generan en los últimos dos años.

Para abordar estos problemas, los laboratorios de Google idearon un algoritmo para dividir su gran cantidad de datos en fragmentos más pequeños y asignarlos a muchas computadoras y, cuando se hicieron los cálculos, recuperar los resultados para consolidarlos. Este marco de software para almacenar y procesar big data se conoce como Hadoop. El framework Hadoop tiene muchos componentes como HDFS, MapReduce, HBase, Hive, Pig, sqoop, zookeeper para analizar datos estructurados y no estructurados utilizando hardware básico. Este es un curso de capacitación reconocido en la industria que es una combinación de los cursos de capacitación en desarrolladores de Hadoop, administrador de Hadoop, pruebas de Hadoop y análisis de big data. La capacitación de Cloudera Hadoop lo preparará para eliminar la certificación de Big Data.

Big data Sé que mucha gente comentará inmediatamente mi respuesta, ya que la ciencia de datos es la palabra de moda para este año. Les solicito que verifiquen cuántos proyectos de ciencia de datos realmente pagan bien a la compañía de servicios de TI. Si esas compañías no obtienen ganancias, ¿por qué invertirían? Sin embargo, las implementaciones de Big Data están obteniendo buenos ingresos, la ciencia de datos es una parte muy pequeña del nicho. No puedes dejarlo ir, pero las posibilidades de que te contraten sin experiencia son muy bajas. Big data te dará un trabajo.

En primer lugar, no pueden describirse como tecnologías. Son 2 disciplinas. No podemos decir cuál es mejor sin especificar, ¿sobre qué base los estamos comparando?

Sus preguntas pueden / deberían ser como

¿Cuál de estos dos tiene buen futuro?

¿Cuál de estos dos es fácil de aprender?

¿Cuál de estos dos tiene más vacantes en la actualidad?

Ambos están relacionados y uno no puede estar completo en ausencia de otro.

Sin Big Data y su conocimiento de las capacidades de procesamiento. En ciencia de datos no podrá obtener información fácilmente.

Haga sus investigaciones correctamente. No hay comparación entre dos, ya que ambos están conectados de alguna manera.

More Interesting

¿Qué es la ciencia de datos y el análisis y cómo puede beneficiar a las empresas?

¿La 'arquitectura lambda' sigue siendo la mejor manera de construir canalizaciones de datos a gran escala (en 2017) o ha sido reemplazada por otras arquitecturas?

Tengo 10 años de experiencia en mainframe. Estoy tratando de aprender Big Data Analytics. ¿Cómo procedo? No entiendo el mundo distribuido.

¿Cómo se transfiere una persona trabajadora a tiempo completo a la ciencia de datos?

¿Cuáles son algunas ideas de investigación para la minería de datos en la agricultura?

¿Cuáles son buenas técnicas de aumento de datos para un conjunto de datos de imágenes pequeñas?

¿Cuál es la fuente de datos perfecta para el análisis de sentimientos a nivel de documento?

¿Existe una guía de inicio automático para PNL?

¿Cuál es la diferencia entre boost, ensemble, bootstrap y bagging?

¿Cuál es la diferencia entre extraer datos y comprimir datos?

¿Cuáles son algunas simulaciones modificables gratuitas de código abierto disponibles para el público?

¿GoLang es una mejor opción de lenguaje de programación para proyectos de aprendizaje automático manteniendo el rendimiento y la escala horizontal como las principales preocupaciones de diseño?

¿Por qué LinkedIn separó a su equipo de ciencia de datos?

¿Qué es Big Data y cómo se relaciona con las bases de datos?

Siempre odié programar en idiomas de bajo nivel, ¿debería olvidarme de la ciencia de datos como una carrera potencial? Me refiero a C / C ++ en comparación con Matlab, R, Python