El objetivo de trabajar con datos es darle sentido. Tenemos este dicho que incluso si tiene grandes volúmenes de datos, pero si no puede procesarlos, entonces es tan bueno como basura.
Una estrategia para procesar grandes cantidades de datos es por reducción. Esto significa obtener una muestra de datos más pequeña pero más representativa que puede usar fácilmente. Este proceso de reducción obliga a tirar datos innecesarios para el análisis. Aquí, los datos son realmente pequeños.
¿Dónde entra el big data? Con el advenimiento de sistemas de almacenamiento y procesamiento baratos como nosql y Hadoop, los propietarios de datos ya no tienen que arrojar tantos datos. Dependiendo de sus recursos, pueden optar por conservar cada vez más estos datos. Pero cuando llega el momento de procesarlo, casi siempre lo reducen primero antes del análisis y el procesamiento. En uno de mis clientes, alrededor del 90% de las solicitudes de trabajo de Hadoop son solo para extraer un subconjunto más pequeño de datos, ya sea mediante filtrado o agregación. Esto es probable porque los resultados son lo suficientemente buenos y hemos desarrollado numerosas técnicas para procesar buenos datos muestreados. Al final, la mayor parte de los datos originales se conservan para otros trabajos que puedan necesitarlos.
- ¿Cuáles son algunos de los procedimientos / metodologías estadísticas comúnmente utilizados en las pruebas A / B?
- Incluso utilizando un conjunto de validación, ¿no estamos tratando de maximizar los resultados en el conjunto de prueba? ¿Y al final sobreajustando?
- ¿Cuáles son las áreas básicas de conocimiento matemático y estadístico con las que un científico debería sentirse muy cómodo y cómo las aprende?
- ¿Qué debo saber antes de aprender el análisis de big data?
- ¿Cuál es la diferencia entre especialización y generalización en DBMS?
Aquí los datos se almacenan en grande pero el proceso es pequeño. Lo mejor de ambos mundos.