Esto es una simplificación excesiva, pero responderé la pregunta desde el punto de vista de un científico de datos.
Como científico de datos, realizo experiencias sobre datos. Eso podría involucrar la manipulación de datos, inventar y analizar nuevos algoritmos, aplicar algoritmos conocidos de una disciplina a otra, o hacer una “inmersión profunda” en los datos para determinar qué características interesantes podría querer extraer. Con pequeñas cantidades de datos, esto es fácil. Puede ver todos los datos a la vez y tomar decisiones.
Como un ejemplo extremadamente simple, considere la secuencia [0, 1, 1, 2, 3, 5, 8, 13]. Es fácil extraer el patrón de estos datos. Es la secuencia de Fibonacci, entonces:
- ¿Cómo manejan los datos las grandes empresas?
- ¿Cómo utilizan las principales empresas la ciencia de datos en las finanzas?
- ¿Qué sería más fructífero aprender: R o SAS?
- ¿Es necesario obtener una maestría para trabajar en el área de ciencia de datos, si no tengo experiencia previa? ¿Los reclutadores valoran alguna certificación en ciencia de datos o buscan principalmente una maestría?
- ¿Cómo pueden las empresas beneficiarse del análisis de datos?
F [n] = F [n-1] + F [n-2]
F [0] = 0; F [1] = 1
¿Y si tuviera una secuencia de 100 números y le pidiera que extrajera el patrón subyacente (suponiendo que no supiera a priori el generador subyacente)? ¿Qué tal una secuencia de 1,000? ¿Qué tal una secuencia de 1 x 10 ^ 20 números? De nuevo, es un ejemplo simplista, pero la cantidad de datos se vuelve demasiado para observar de una vez.
Trabajar con grandes datos (es decir, grandes cantidades de datos) es algo paralelo a eso. Hay demasiados datos (volumen) entrando a una velocidad (velocidad) demasiado rápida. Como científico de datos, realizo experimentos con subconjuntos de datos extremadamente pequeños. Luego trabajo para escalar esas soluciones a algo que escala bien cuando se aplica a cantidades cada vez mayores de datos (piense en la complejidad de Big-Oh).
Estoy seguro de que es diferente dependiendo de la industria en la que te encuentres. Los especialistas en visualización de datos (a saber, datos) probablemente tengan un proceso similar pero con un objetivo obviamente diferente.