¿Cómo es la ciencia de datos diferente del análisis de Big Data?

Ya tienes una gran pila de cantos rodados, rocas, grava, arena, y hay camiones volquete que aparecen cada pocos segundos y dejan más. No sabes qué material está llegando realmente en ningún momento y es de diferentes tamaños, desde rocas grandes hasta arena fina, incluso polvo. No está seguro de cuándo aparecerán los camiones y cuánto material puede contener cada uno. Todos los camiones parecen en su mayoría indistinguibles entre sí y todos entran por la misma entrada y salen por la misma salida. Esas son sus entradas básicas de big data: simplemente reemplace las rocas con datos.

El análisis de Big Data se trata de responder preguntas

  • ¿Cuántos camiones volquete por hora? ¿por día? ¿por semana? ¿por año?
  • Qué volumen de material se entrega por camión, por hora, por día, etc.
  • ¿Cuál es el volumen cuando clasificamos los materiales por tamaño de la pieza de roca, por color, por tipo de roca (clasificaciones que ya conocemos?
  • ¿Entonces queremos saber los volúmenes y pesos relativos por color y por tipo de roca?
  • ¿Han aumentado, disminuido o permanecido constante el volumen y el peso durante el período? ¿Qué pasa con los aumentos en cada color, tipo de roca o tamaño?

El desafío del análisis de Big Data es obtener todos los datos en un solo lugar, normalizarlos para que sean comparables, comprender lo que está sucediendo y crear ideas que se puedan utilizar para tomar decisiones sobre los procesos que ya están implementados. Por ejemplo, este tipo de análisis de datos de taxis nos dirá cuántos taxis hay que ejecutar en un turno y cuántos conductores deben atender.

La ciencia de datos se trata de hacer preguntas

  • ¿Ciertos tamaños, colores y tipos de rocas vienen en diferentes horas, días, semanas o años?
  • ¿Todos los camiones traen rocas mixtas o las rocas de los camiones son diferentes?
  • ¿Hay diferencias en los camiones que entregan ciertos tipos de rocas?
  • ¿Qué otros factores afectan la mezcla de rocas que recibimos? Por ejemplo, cuando la economía es fuerte, recibimos más arena, pero en una economía débil, ¿recibimos rocas más grandes?
  • Si diferentes rocas vienen en diferentes camiones, ¿de dónde vienen? ¿Podemos equipar los camiones con transmisores para que podamos rastrear de dónde vienen e ir?
  • ¿Con qué frecuencia los mismos camiones entregan materiales? ¿Vienen algunos camiones con más frecuencia?
  • ¿Hay días, horas o semanas, cuando el volumen es particularmente bajo o alto? ¿Qué podría causar estas anomalías?
  • Dadas ciertas condiciones, ¿podemos predecir el número de camiones y las cantidades de cada tipo de material que se entregará en el futuro?

El desafío de la ciencia de datos es encontrar los atributos de los datos que serán significativos, sintetizar nuevas variables y fabricar nuevos datos para ayudarnos a entender por qué están sucediendo las cosas, para tratar de encontrar patrones y anomalías en los datos. El resultado de una buena ciencia de datos es ayudar a una empresa a realizar cambios transformadores en la empresa misma. Este tipo de ciencia de datos aplicada a la industria del taxi se extiende a la forma en que las personas se mueven por una ciudad y da como resultado un servicio como Uber que transforma la industria.

Escribí una respuesta más amplia sobre el tema aquí: la respuesta de Gam Dias a ¿Cuál es la diferencia entre Análisis de datos, Análisis de datos, Minería de datos, Ciencia de datos, Aprendizaje automático y Big Data?

En primer lugar, a Big data se le ha dado mayor (más) importancia de la que merece. Vea mi respuesta donde aclaro algunos puntos relacionados con Big Data Respuesta de Anoop Kumar VK a ¿Vale la pena aprender la inteligencia empresarial tradicional en el momento de Big Data?

Muchas personas han definido esto de muchas maneras diferentes, intentaré explicarlo con palabras simples

Ciencia de datos: la ciencia de datos cubre todo el espectro desde el punto de generación de datos hasta el final del análisis de datos. Eso incluye extracción de datos, limpieza, minería, investigación, análisis, programación y modelado estadístico para obtener información. Si utiliza los resultados de las mejoras de Ciencia de datos para empresas, se convierte en Inteligencia empresarial.

Análisis de Big Data : en este contexto, se trata de un pequeño subconjunto de ciencia de datos en general y, si se usa para negocios, se incluye en Business Intelligence como un pequeño subconjunto. La ciencia de datos / Business Intelligence se ocupa de “Todos los datos”. El análisis de Big Data se limita al análisis de Big Data. Es así de simple. En general, no existen los grandes datos como se puede imaginar ” los grandes datos de hoy serán los datos normales de mañana “, pero la exageración es tanto que estas palabras ya no se pueden ignorar.

Hadoop es un marco de código abierto desarrollado en Java, dedicado a almacenar y analizar grandes conjuntos de datos no estructurados. Es una plataforma altamente escalable que permite ejecutar múltiples tareas simultáneas desde un solo servidor hasta miles de servidores sin demora.

Consiste en un sistema de archivos distribuido que permite transferir datos y archivos en segundos divididos entre diferentes nodos. Su capacidad para procesar de manera eficiente, incluso si un nodo falla, lo convierte en una tecnología confiable para las empresas que no pueden permitirse retrasar o detener sus actividades.

¿Cómo evolucionó Hadoop?

Inspirados por Map Reduce de Google, que divide una aplicación en pequeñas fracciones para ejecutarse en diferentes nodos, los científicos Doug Cutting y Mike Cafarella crearon una plataforma llamada Hadoop 1.0 y la lanzaron en el año 2006 para admitir la distribución del motor de búsqueda Nutch.

Hadoop se puso a disposición del público en noviembre de 2012 por Apache Software Foundation . El nombre de un elefante amarillo de peluche del niño de Doug Cutting, Hadoop ha sido revisado continuamente desde su lanzamiento.

Como parte de su revisión, lanzó su segunda versión revisada Hadoop 2.3.0 el 20

Febrero de 2014 con algunos cambios importantes en la arquitectura.

Bueno, estás comparando dos temas, uno de los cuales está relativamente bien definido y otro que no. Data Science puede considerarse en gran medida el conjunto de tareas necesarias para aplicar algoritmos de aprendizaje automático a conjuntos de datos para encontrar correlaciones subyacentes. Algunos pueden estar en desacuerdo, pero esa es una definición aproximada.

Y Big Data Analysis significa … bueno, realmente no hay una buena definición, en gran parte porque Big Data no tiene una definición rigurosa. Es un término que ha sido cooptado y comercializado para significar cualquier cosa que tenga que ver con datos.

Por lo tanto, es posible que tenga problemas para comprender la diferencia entre Data Science y Big Data porque Big Data no significa nada.

Esta pregunta es un festival de palabras de moda. Pero existe una confusión legítima sobre lo que es la ciencia de datos. Los científicos de datos son estadísticos que conocen la programación y usan computadoras para analizar y trabajar con datos.

Cuando los científicos de datos pueden trabajar con conjuntos de datos utilizando computadoras normales, se puede decir que están haciendo ciencia de datos simple. Cuando no pueden trabajar con computadoras normales porque los conjuntos de datos son demasiado grandes. Entonces puede decir que están trabajando con Big Data. Cuando analizan dichos datos, puede llamar a eso Análisis de Big Data.

La ciencia de datos debe ser sobre la semántica, que significa sobre la escalera semántica, compuesta de datos, información, concepto, conocimiento y sabiduría (lea mis publicaciones). Big Data se trata de estadísticas y tendencias.

More Interesting

¿Podría un estadístico, utilizando solo los datos de cualquier deporte importante, determinar quiénes eran los mejores jugadores?

¿Cuál es el mejor curso en línea gratuito para ciencia de datos / aprendizaje automático como principiante?

¿Cuáles son algunos proyectos de análisis de datos que puedo hacer como principiante en ciencia de datos?

¿Existe una correlación entre big data y la sociedad de red?

Como científico de datos, ¿es mejor especializarse en la recopilación o el análisis de datos?

Durante el análisis de datos con R, ¿qué debería importarnos primero: los valores atípicos o los valores faltantes?

¿Qué es mejor, una maestría en MIS o en ciencia de datos?

¿Cuál es el mayor problema de big data en el mundo que se ha resuelto?

¿Qué es la clasificación bayesiana en la minería de datos?

¿Cuál es la diferencia entre una maestría en MFE y una maestría en ciencias de datos, especialmente su futura carrera?

Cómo construir un currículum sólido para trabajar en Big Data

¿Qué partes del trabajo de un científico de datos tienen menos probabilidades de ser automatizadas en el futuro?

Cómo convertirse en un desarrollador de Big Data a los 33 años sin experiencia previa en esta área

Cómo comenzar con data anlaytics desde cero

¿Cómo pueden los estudiantes de estadísticas implementar realmente las pruebas A / B cuando no tienen una gran cantidad de datos disponibles para sitios web personales y no saben mucho sobre el diseño de páginas web?