Ya tienes una gran pila de cantos rodados, rocas, grava, arena, y hay camiones volquete que aparecen cada pocos segundos y dejan más. No sabes qué material está llegando realmente en ningún momento y es de diferentes tamaños, desde rocas grandes hasta arena fina, incluso polvo. No está seguro de cuándo aparecerán los camiones y cuánto material puede contener cada uno. Todos los camiones parecen en su mayoría indistinguibles entre sí y todos entran por la misma entrada y salen por la misma salida. Esas son sus entradas básicas de big data: simplemente reemplace las rocas con datos.
El análisis de Big Data se trata de responder preguntas
- ¿Cómo hace su empresa para que sus herramientas de 'big data' sean fáciles de usar?
- ¿En qué se parecen y se diferencian los problemas establecidos en CS 109 al trabajo como científico de datos real?
- ¿Cuál es la diferencia entre los conceptos de minería de datos y Big Data?
- ¿En qué organización es mejor trabajar para un puesto de pasantía en ciencia de datos, Analytics Vidhya o Sigmaway?
- ¿Por qué Data Science es tan popular en los Estados Unidos pero casi inexistente en Suiza?
- ¿Cuántos camiones volquete por hora? ¿por día? ¿por semana? ¿por año?
- Qué volumen de material se entrega por camión, por hora, por día, etc.
- ¿Cuál es el volumen cuando clasificamos los materiales por tamaño de la pieza de roca, por color, por tipo de roca (clasificaciones que ya conocemos?
- ¿Entonces queremos saber los volúmenes y pesos relativos por color y por tipo de roca?
- ¿Han aumentado, disminuido o permanecido constante el volumen y el peso durante el período? ¿Qué pasa con los aumentos en cada color, tipo de roca o tamaño?
El desafío del análisis de Big Data es obtener todos los datos en un solo lugar, normalizarlos para que sean comparables, comprender lo que está sucediendo y crear ideas que se puedan utilizar para tomar decisiones sobre los procesos que ya están implementados. Por ejemplo, este tipo de análisis de datos de taxis nos dirá cuántos taxis hay que ejecutar en un turno y cuántos conductores deben atender.
La ciencia de datos se trata de hacer preguntas
- ¿Ciertos tamaños, colores y tipos de rocas vienen en diferentes horas, días, semanas o años?
- ¿Todos los camiones traen rocas mixtas o las rocas de los camiones son diferentes?
- ¿Hay diferencias en los camiones que entregan ciertos tipos de rocas?
- ¿Qué otros factores afectan la mezcla de rocas que recibimos? Por ejemplo, cuando la economía es fuerte, recibimos más arena, pero en una economía débil, ¿recibimos rocas más grandes?
- Si diferentes rocas vienen en diferentes camiones, ¿de dónde vienen? ¿Podemos equipar los camiones con transmisores para que podamos rastrear de dónde vienen e ir?
- ¿Con qué frecuencia los mismos camiones entregan materiales? ¿Vienen algunos camiones con más frecuencia?
- ¿Hay días, horas o semanas, cuando el volumen es particularmente bajo o alto? ¿Qué podría causar estas anomalías?
- Dadas ciertas condiciones, ¿podemos predecir el número de camiones y las cantidades de cada tipo de material que se entregará en el futuro?
El desafío de la ciencia de datos es encontrar los atributos de los datos que serán significativos, sintetizar nuevas variables y fabricar nuevos datos para ayudarnos a entender por qué están sucediendo las cosas, para tratar de encontrar patrones y anomalías en los datos. El resultado de una buena ciencia de datos es ayudar a una empresa a realizar cambios transformadores en la empresa misma. Este tipo de ciencia de datos aplicada a la industria del taxi se extiende a la forma en que las personas se mueven por una ciudad y da como resultado un servicio como Uber que transforma la industria.
Escribí una respuesta más amplia sobre el tema aquí: la respuesta de Gam Dias a ¿Cuál es la diferencia entre Análisis de datos, Análisis de datos, Minería de datos, Ciencia de datos, Aprendizaje automático y Big Data?