¿Cuál es la próxima gran cosa después de Big Data?

El siguiente paso tiene dos componentes: integración de datos y “datos grandes y pequeños”, es decir, la enorme proliferación de pequeños conjuntos de datos en la web.

El éxito de los grandes datos ha sido encontrar correlaciones y tendencias solo discernibles en una gran dimensión como el tiempo o la población. Pero incluso el más grande de los grandes conjuntos de datos son una pequeña fracción de todos los datos, y cualquier conjunto de datos solo revela una pequeña faceta de una historia más amplia. La integración de datos permite combinar conjuntos de datos dispares a lo largo de sus facetas comunes. Algunos ejemplos incluyen aumentar sus datos con datos de opinión, inflación gubernamental / empleos / demografía u otras métricas publicadas, y datos de modelos predictivos para ayudar a planificar la demanda de los clientes y las necesidades de infraestructura.

En cuanto a “datos grandes y pequeños”, este es un desafío interesante al utilizar la enorme cantidad de datos estructurados en tablas HTML en toda la web, mientras se maneja el significado ambiguo y el contexto que rodea la tabla. Gente como Alon Halevy (Google) y Michael Cafarella (Universidad de Washington, Universidad de Michigan) están investigando estos desafíos a través de sistemas como WebTables (http://dl.acm.org/citation.cfm?i…) y Octopus (http : //dl.acm.org/citation.cfm? i …).

Estos dos componentes se unen de una manera interesante. Al igual que con las bases de datos, la integración de datos ha existido durante algún tiempo, pero no ha evolucionado al mismo ritmo que los sistemas de gestión de datos. La integración de datos actualmente no es adecuada para combinar conjuntos de datos masivos con numerosos conjuntos de datos pequeños, ya que un gran cuello de botella en la integración de datos requiere la participación humana para ayudar a identificar las facetas comunes entre dos conjuntos de datos que de otro modo no estarían relacionados. Esto requiere limpieza de datos, resolución de entidades y otras tareas desafiantes para las cuales el cerebro humano sigue siendo un mejor sistema de comparación de patrones que los algoritmos. Mejorar nuestros algoritmos para hacer que esto sea escalable es un desafío importante.

Finalmente, comentaré que los investigadores probablemente avanzarán en la integración de datos antes de que madure cualquier sistema para gestionar la proliferación de datos web. Y aunque algunos aspectos de los “datos grandes y pequeños” están maduros para el abastecimiento público, argumentaré que los sistemas como Freebase y DBpedia son repositorios de datos exitosos (o posiblemente repositorios de conocimiento) listos para su uso inmediato.

Big DataCiencia de datosdatos