Big data no es necesariamente más útil que otros conjuntos de datos. Como el autor no definió qué es big data, usaré mi definición favorita de las muchas que existen.
Big data es cuando el tamaño o la escala de una recopilación de datos impide que se entreguen de manera tradicional
A veces, el big data es simplemente un problema de operaciones o entrega. Los grandes datos en el espacio analítico a menudo existen porque los datos finalmente se están utilizando y los SLA y el tiempo de comercialización requieren nuevas técnicas.
- ¿Cuál es la diferencia entre trabajar en análisis y ciencia de datos?
- Soy de una experiencia que no es CS / IT, uniéndome al sector de análisis de datos, aprendiendo R y Python. ¿Es esta la elección correcta? En caso afirmativo, ¿cómo puedo hacerlo?
- ¿Hay algún dato que sea particularmente difícil de obtener con respecto a la valoración de la asistencia sanitaria?
- ¿Qué pasos se deben tomar para tener una comprensión rigurosa de la ciencia de datos (lado teórico, especialmente)?
- ¿Cuál es la mejor manera de evaluar los tiempos de respuesta de AB?
Por ejemplo, Hadoop se inventó para resolver el problema ETL de Yahoo cuando la indexación de cada página web en el mundo comenzó a tomar demasiado tiempo. Si pudieran esperar una semana entre cada actualización, podrían haber utilizado los medios tradicionales durante muchos años más antes de innovar para salir del problema.
Ahora hay una economía de escala que ocurre cuando una persona con mentalidad estadística puede tener más puntos de datos en su pregunta que hace que el tamaño y la escala de los datos sean más útiles. Esto puede ser particularmente interesante en la creación de ciertos modelos predictivos. A veces, el tamaño y la escala son más útiles porque reflejan un conjunto de datos más completo centralizado en un solo lugar. Por ejemplo, una gran empresa siempre ha tenido acceso a los datos del punto de venta. Durante años estuvo separado y alojado en diferentes geografías de todo el mundo. Ningún sistema tenía más de un terabytes. Póngalos todos juntos con algo de enriquecimiento, realice algunos análisis muy complejos con un SLA casi en tiempo real y tendrá una solución de big data de varios terabytes de un solo dígito que es mucho más útil que las colecciones de datos separadas descentralizadas.
Insisto en terabytes de un solo dígito porque no creo que sean muchos datos. Sin embargo, cómo se está utilizando y los SLA de entrega involucrados hacen que se ajuste a la definición anterior.