¿Los datos grandes son más útiles que los datos pequeños?

El objetivo de trabajar con datos es darle sentido. Tenemos este dicho que incluso si tiene grandes volúmenes de datos, pero si no puede procesarlos, entonces es tan bueno como basura.

Una estrategia para procesar grandes cantidades de datos es por reducción. Esto significa obtener una muestra de datos más pequeña pero más representativa que puede usar fácilmente. Este proceso de reducción obliga a tirar datos innecesarios para el análisis. Aquí, los datos son realmente pequeños.

¿Dónde entra el big data? Con el advenimiento de sistemas de almacenamiento y procesamiento baratos como nosql y Hadoop, los propietarios de datos ya no tienen que arrojar tantos datos. Dependiendo de sus recursos, pueden optar por conservar cada vez más estos datos. Pero cuando llega el momento de procesarlo, casi siempre lo reducen primero antes del análisis y el procesamiento. En uno de mis clientes, alrededor del 90% de las solicitudes de trabajo de Hadoop son solo para extraer un subconjunto más pequeño de datos, ya sea mediante filtrado o agregación. Esto es probable porque los resultados son lo suficientemente buenos y hemos desarrollado numerosas técnicas para procesar buenos datos muestreados. Al final, la mayor parte de los datos originales se conservan para otros trabajos que puedan necesitarlos.

Aquí los datos se almacenan en grande pero el proceso es pequeño. Lo mejor de ambos mundos.