Big Data no se trata solo de almacenamiento. También es un paradigma informático, que le permite realizar análisis de datos distribuidos a gran escala, transformación, minería, etc. de manera eficiente.
Cuando se trata de datos no estructurados, el primer desafío es extraer información estructurada de la fuente no estructurada. Porque las máquinas, a diferencia de los humanos, necesitan números y atributos para trabajar. Tratemos de entender esto con un ejemplo. “¿Cómo, por ejemplo, podemos usar Big Data para clasificar una gran cantidad de archivos de imagen automáticamente?”
Primero tratamos de ver cómo se puede resolver este problema en el contexto de un solo archivo. Todavía no “Big Data”:
- ¿Cuáles son los efectos negativos de los grandes datos?
- ¿Qué odias de la ciencia de datos?
- ¿Por qué no hay un estándar para el estilo de codificación en GNU R?
- Dado que la mayoría del software de procesamiento de flujo de Apache está escrito en Java, ¿debería estudiarlo exclusivamente para Big Data y el campo de transmisión de datos?
- ¿Cómo se debe enfocar el aprendizaje de big data?
Un archivo de imagen (el dato no estructurado) primero debe ser procesado para extraer las características “estructuradas”, tales como dimensiones, profundidad de color, información EXIF (si está presente), transformaciones wavelet, formas de segmento, etc. Una vez que se obtiene esta información estructurada, podemos impulsarla a través de un algoritmo de análisis predictivo (digamos una técnica de clasificación de Random Forest) para identificar lo que podría contener la imagen (un vaso o una taza o un automóvil o una manzana …). La metodología básica sigue siendo la misma, aunque la sofisticación puede cambiar (por ejemplo, mi algoritmo puede ser lo suficientemente sofisticado como para identificar rostros humanos).
Ahora imagine que esto se hace para millones de imágenes por hora o en tiempo real. Aquí es donde Big Data entra en escena. El ecosistema no solo le brinda un mecanismo para almacenar estos millones de imágenes (piezas de información no estructuradas) sino también los marcos para ejecutar dichos algoritmos (por ejemplo, ‘extracción de características’, ‘clasificación’, etc.) de una manera escalable distribuida.
Espero que esto ayude.