¿Cuál es la próxima gran cosa después de Big Data?

El siguiente paso tiene dos componentes: integración de datos y “datos grandes y pequeños”, es decir, la enorme proliferación de pequeños conjuntos de datos en la web.

El éxito de los grandes datos ha sido encontrar correlaciones y tendencias solo discernibles en una gran dimensión como el tiempo o la población. Pero incluso el más grande de los grandes conjuntos de datos son una pequeña fracción de todos los datos, y cualquier conjunto de datos solo revela una pequeña faceta de una historia más amplia. La integración de datos permite combinar conjuntos de datos dispares a lo largo de sus facetas comunes. Algunos ejemplos incluyen aumentar sus datos con datos de opinión, inflación gubernamental / empleos / demografía u otras métricas publicadas, y datos de modelos predictivos para ayudar a planificar la demanda de los clientes y las necesidades de infraestructura.

En cuanto a “datos grandes y pequeños”, este es un desafío interesante al utilizar la enorme cantidad de datos estructurados en tablas HTML en toda la web, mientras se maneja el significado ambiguo y el contexto que rodea la tabla. Gente como Alon Halevy (Google) y Michael Cafarella (Universidad de Washington, Universidad de Michigan) están investigando estos desafíos a través de sistemas como WebTables (http://dl.acm.org/citation.cfm?i…) y Octopus (http : //dl.acm.org/citation.cfm? i …).

Estos dos componentes se unen de una manera interesante. Al igual que con las bases de datos, la integración de datos ha existido durante algún tiempo, pero no ha evolucionado al mismo ritmo que los sistemas de gestión de datos. La integración de datos actualmente no es adecuada para combinar conjuntos de datos masivos con numerosos conjuntos de datos pequeños, ya que un gran cuello de botella en la integración de datos requiere la participación humana para ayudar a identificar las facetas comunes entre dos conjuntos de datos que de otro modo no estarían relacionados. Esto requiere limpieza de datos, resolución de entidades y otras tareas desafiantes para las cuales el cerebro humano sigue siendo un mejor sistema de comparación de patrones que los algoritmos. Mejorar nuestros algoritmos para hacer que esto sea escalable es un desafío importante.

Finalmente, comentaré que los investigadores probablemente avanzarán en la integración de datos antes de que madure cualquier sistema para gestionar la proliferación de datos web. Y aunque algunos aspectos de los “datos grandes y pequeños” están maduros para el abastecimiento público, argumentaré que los sistemas como Freebase y DBpedia son repositorios de datos exitosos (o posiblemente repositorios de conocimiento) listos para su uso inmediato.

Vamos a dar un paso atrás y darnos cuenta de que todas las tecnologías de Big Data (splunk.com, cloudera.com, mongodb, hadoop) tienen un límite de mercado más bajo que las tecnologías de consumo construidas sobre ellas (Facebook.com, Linkedin.com, Groupon. com).

En otras palabras, el propósito de Big Data ha sido capacitar a las corporaciones para que administren mejor la información con el fin de ayudar a las personas a compartir información (Facebook) o ayudar a las personas a comprar bienes / servicios (Groupon).

Luego preguntaría: ¿qué revolución tecnológica ayudará a las grandes corporaciones a anunciar / vender a los consumidores? Creo que serán tecnologías que ayudarán a los consumidores a administrar y aprovechar mejor su información personal existente.

Por ejemplo, los fundadores de RapLeaf.com están comenzando MailVest.com que ayuda a los consumidores a aprovechar los datos en su correo electrónico. Individualmente, estos datos no son grandes, pero cuando se analizan e indexan correctamente, sus datos de correo electrónico valen miles de dólares por año para los anunciantes, si el consumidor opta por el intercambio de datos.

$ 1000 de valor de datos por consumidor X 100 millones de usuarios = la próxima revolución

El próximo gran avance serán los sistemas automatizados de aprendizaje automático que pueden filtrar los grandes conjuntos de datos y descubrir patrones sin una intervención humana profunda.

Esto requerirá sistemas inteligentes que puedan adivinar espacios de características, núcleos y regularizadores, que se ejecutan en paralelo en miles de nodos, con sorprendentes interfaces gráficas de usuario e interfaces de computadora humana súper fáciles.

Se interconectaría con las fuentes de datos existentes, utilizando algoritmos inteligentes de operador de hashing / proyección para eliminar ETL y otros problemas de esquema de datos.

Al menos, eso es lo que construiría si tuviera fondos; Mis clientes siguen pidiendo esta magia.

-actualizar:
la predicción se hace realidad
Google está financiando “una inteligencia artificial para la ciencia de datos”


Para obtener más datos divertidos y respuestas increíbles, consulte mi canal de YouTube https://www.youtube.com/channel/

y sígueme en Twitter https://twitter.com/CalcCon

More Interesting

¿Debería leer libros orientados a la matemática y la teoría o libros orientados a la aplicación sobre aprendizaje automático?

¿Cuál es el salario de un desarrollador de Big Data Hadoop?

¿Qué fascina a la gente sobre la ciencia de datos?

¿Es el Internet de las cosas más sobre programación embebida o ciencia de datos?

Dado que la mayoría del software de procesamiento de flujo de Apache está escrito en Java, ¿debería estudiarlo exclusivamente para Big Data y el campo de transmisión de datos?

¿Cuáles son las perspectivas laborales para un estudiante internacional después de una maestría en ciencia de datos o análisis de datos en los Estados Unidos?

¿Qué tan bien se está utilizando la ciencia de datos en Quora?

¿Cuáles son las oportunidades de investigación para MS Data Science en la Universidad de Minnesota, Twin Cities?

¿Qué se requieren todos los lenguajes de programación para la ciencia de datos?

¿Se requiere que una persona que realiza análisis de datos / ciencia de datos / aprendizaje automático tenga un buen conocimiento de las estructuras de datos? ¿Si es así por qué?

¿Es Python el lenguaje de programación más importante para el análisis de datos?

Recuperación de información: ¿Cuáles son algunas de las API más importantes que todo científico de datos debe conocer?

¿Qué algoritmos de análisis de datos pueden usarse para detectar comportamientos sospechosos a partir de los datos recopilados durante el período de demonización?

¿Cuáles son los mejores cursos de análisis de datos en la India?

¿Cuál es la mejor opción para estudiar análisis de datos?