¿De qué sirve Big Data, si los datos están tan desestructurados?

Big Data no se trata solo de almacenamiento. También es un paradigma informático, que le permite realizar análisis de datos distribuidos a gran escala, transformación, minería, etc. de manera eficiente.

Cuando se trata de datos no estructurados, el primer desafío es extraer información estructurada de la fuente no estructurada. Porque las máquinas, a diferencia de los humanos, necesitan números y atributos para trabajar. Tratemos de entender esto con un ejemplo. “¿Cómo, por ejemplo, podemos usar Big Data para clasificar una gran cantidad de archivos de imagen automáticamente?”

Primero tratamos de ver cómo se puede resolver este problema en el contexto de un solo archivo. Todavía no “Big Data”:

Un archivo de imagen (el dato no estructurado) primero debe ser procesado para extraer las características “estructuradas”, tales como dimensiones, profundidad de color, información EXIF (si está presente), transformaciones wavelet, formas de segmento, etc. Una vez que se obtiene esta información estructurada, podemos impulsarla a través de un algoritmo de análisis predictivo (digamos una técnica de clasificación de Random Forest) para identificar lo que podría contener la imagen (un vaso o una taza o un automóvil o una manzana …). La metodología básica sigue siendo la misma, aunque la sofisticación puede cambiar (por ejemplo, mi algoritmo puede ser lo suficientemente sofisticado como para identificar rostros humanos).

Ahora imagine que esto se hace para millones de imágenes por hora o en tiempo real. Aquí es donde Big Data entra en escena. El ecosistema no solo le brinda un mecanismo para almacenar estos millones de imágenes (piezas de información no estructuradas) sino también los marcos para ejecutar dichos algoritmos (por ejemplo, ‘extracción de características’, ‘clasificación’, etc.) de una manera escalable distribuida.

Espero que esto ayude.

Related Content

Para un estadístico, ¿qué áreas necesitan mejorar para convertirse en un buen científico de datos?

Tengo 10 años de experiencia en mainframe. Estoy tratando de aprender Big Data Analytics. ¿Cómo procedo? No entiendo el mundo distribuido.

¿La programación es una ciencia? Si es así, ¿por qué nadie usa el núcleo de la ciencia, el método científico, para ello?

¿Se puede dividir un conjunto de datos en dos conjuntos separados, en un conjunto predicho con precisión y un conjunto de errores?

¿Por qué hay una diferencia tan grande en cuanto a costos ...?

¿Existe una buena biblioteca para los algoritmos de detección de deriva conceptual?

Tengo una idea y encontré una patente similar, pero esta última no cubre detalles, solo una idea de alto nivel. ¿Debo proceder con la presentación de una patente?

Esto se debe a que tenemos métodos para transformar los datos no estructurados a formato estructurado.

Por lo tanto, puede convertir texto o imágenes o incluso voz o videos en un formato al igual que otros datos estructurados.

Y no todos los grandes datos están desestructurados. También hay muchos datos estructurados. Por ejemplo, la información de las calificaciones educativas, la ubicación, etc. es un gran dato (y estructurado), pero se puede usar para predecir el salario.

Saurabh Gupta

Le diste al clavo. A la gente le encanta hablar de big data, pero nadie habla realmente de cómo almacenar y estructurar estos datos en un formato en el que estén fácilmente disponibles y sean utilizables. No puede hacer análisis de datos o construir modelos de aprendizaje automático si no tiene sus datos en orden primero.

Muchas empresas experimentan dolores de crecimiento cuando se trata de encontrar formas de almacenar y estructurar todos sus datos.

Dima Korolev

Los volúmenes más la analítica ayudan a responder la pregunta más importante: de qué forma (s) debe estructurarse este desorden de datos no estructurados.

Saurabh Gupta

More Interesting

¿Qué tan arriesgado es cambiar a la ciencia de datos después de trabajar durante 4 años en TI?

¿Cómo debe establecerse el propósito de un servidor de datos?

¿Qué aspectos del aprendizaje automático teórico y aplicado requieren una formación formal en qué subdisciplinas de las matemáticas y / o estadísticas?

¿Dónde debo comenzar a aprender ML y minería de datos?

He realizado mi pasantía en una empresa B2B y he realizado algunos análisis de datos como el porcentaje de daños, el retorno al origen y algunos otros. ¿Qué más puedo hacer con estos datos?

¿Existe una correlación entre big data y la sociedad de red?

Cómo obtener una lista de todos los bootcamps de ciencia de datos que se ejecutan en los EE. UU.

¿Es la velocidad de la luz una restricción para los grandes datos?

¿El mercado de trabajo para la ciencia de datos en unos años seguirá siendo el mismo de hoy?

¿Puedo usar el agrupamiento (técnicas de minería de datos) para la detección de cuentas falsas en las redes sociales?

¿Cuál es el plan de estudios típico para un programa de pregrado en ciencia de datos?

¿Cómo incorporan las empresas consultoras de alta dirección la experiencia en ciencia de datos en sus modelos de entrega actuales?

¿Qué opciones de carrera están disponibles en Big Data si uno no tiene un fondo de estadísticas / codificación?

¿Aprender SQL es bueno para carreras potenciales en análisis financiero y de datos?

¿En qué consiste la minería de datos?

Web Analytics