¿Cuáles son algunos de los desafíos y oportunidades sobresalientes en el análisis predictivo con respecto a la privacidad y la propiedad de los datos, el análisis de los datos del usuario, el escalado de algoritmos y los ecosistemas e intercambios de datos emergentes?

Privacidad y propiedad de los datos

La privacidad probablemente será más fácil de resolver que la propiedad.

En términos de propiedad, inevitablemente habrá conflictos entre los productores y los agregadores de datos, los usuarios que están representados en los datos y los consumidores de datos, ya que cada uno tiene puntos de vista muy diferentes sobre quién ha creado valor. ¿Debe un usuario poseer datos relacionados con su actividad o beneficiarse de su explotación? ¿Debería ser propietaria de la empresa que recopiló los datos, o debería estar disponible para el usuario que proporcionaría el mayor beneficio al usarlo? Si los datos son anónimos, ¿aún pertenecen al usuario? ¿Quién debe poseer los conocimientos adquiridos solo mediante la combinación de dos fuentes de datos? ¿Existe un monopolio de datos y es anticompetitivo? Si es así, ¿cuáles serían los remedios? ¿Es una compañía que orienta sus propios anuncios basados ​​en datos de usuario diferente a otra compañía que raspa los mismos datos de usuario para orientar anuncios? ¿Debería un gobierno que recopila información sobre o en nombre de sus ciudadanos mantenerla encerrada, venderla exclusivamente al mejor postor o ponerla a disposición general de todos?

Existen soluciones técnicas que pueden ayudar a resolver algunas de las preguntas de privacidad. Por ejemplo, es relativamente fácil eliminar información y / o agregar ruido para que no sea posible identificar a ningún individuo dentro de una fuente de datos. Por lo demás, es probable que gran parte de esto se pelee a través de la jurisprudencia y la legislación, que variarán significativamente entre las jurisdicciones.

Como contrapeso, hay muchas organizaciones que creen que los datos deben estar abiertos y que la apertura y la interoperabilidad les brindan una ventaja competitiva. Ciertamente, las compañías más pequeñas tienden a estar más en el campo de datos abiertos y gradualmente se mueven hacia el campo de propiedad a medida que crecen. Sería bueno si los datos abiertos demostraran ser una estrategia dominante en la mayoría de las circunstancias, pero los desarrollos como las restricciones graduales que Twitter ha puesto en sus fuentes de datos indicarían que los datos en sí (y la exclusividad de estos datos) se están viendo más y más como un centro de ganancias en estos días.

Yo diría que la sociedad está mejor servida porque los datos sin procesar son en su mayoría abiertos y permiten que las percepciones del análisis pertenezcan en gran medida a quienes las produjeron, ya que aquí no hay un juego de suma cero. Pero estoy seguro de que muchos productores de datos estarían en desacuerdo con respecto a que otros reciban un almuerzo gratis.

Análisis de datos del usuario

Dejando de lado los problemas de privacidad y propiedad, el objetivo principal del análisis de los datos del usuario (con esto supongo que nos referimos a los datos producidos al observar las actividades de un usuario) es determinar la intención. Este es sin duda el foco de muchos de los análisis predictivos utilizados en la publicidad en línea, y la razón por la que la publicidad de búsqueda es mucho más efectiva que la publicidad de display (porque las búsquedas representan la intención). Pero también es importante para otros campos, por ejemplo, la predicción de patrones de tráfico en tiempo real requiere información sobre dónde van las personas.

Gran parte del progreso en esta área será hacia herramientas que permitan reunir datos de múltiples fuentes en el único lugar donde las técnicas (cada vez más poderosas) de la comunidad de aprendizaje automático pueden aplicarse.

Debido a que la señal es a menudo muy ruidosa y las observaciones son escasas o muy alejadas del proceso subyacente, los modelos generativos (que modelan datos al tratar de generar datos similares a partir de un proceso aleatorio subyacente) serán importantes ya que proporcionan un marco en el que ambos Se pueden aplicar pasos de modelado (inspiración) y ajuste de parámetros (transpiración).

Escalado de Algoritmos

Claramente, se ha progresado mucho en los últimos 20 años. Ahora es posible construir sistemas a gran escala mucho más rápido que antes. Tener más datos casi siempre mejorará los sistemas basados ​​en datos.

Dicho esto, el enfoque actual en el flujo de trabajo de mapa / reducción limita severamente los tipos de modelos que se pueden construir a escala y estos a menudo carecen de elegancia o aptitud para el propósito. En mi opinión, las personas a menudo usan un mazo para clavar una tachuela y hacen girar más máquinas virtuales en lugar de realizar incluso un perfil básico de código. Peor aún, los datos y el cómputo pueden parecer un sustituto viable para el análisis y la comprensión, y a menudo se usan como tales.

El otro problema con los algoritmos de escalado es que los gastos generales de comunicaciones y sincronización aumentan y, por lo tanto, se puede perder mucha eficiencia, especialmente cuando el cálculo no encaja bien en un modelo de mapa / reducción. ¿Realmente tiene sentido escalar un algoritmo de 1 a 100 máquinas para procesar 10 veces más datos y mejorar la precisión en un 1%? ¿Especialmente dados los requisitos de electricidad de estas máquinas y el hecho de que el cálculo que se realiza es mostrar a alguien un anuncio que los hará infinitamente más propensos a comprar un producto?

Creo que continuaremos empujando los límites en términos de escalabilidad (especialmente los grandes) para sistemas donde hay un beneficio social claro como la búsqueda, la bioinformática y el procesamiento del lenguaje natural. Sin embargo, también veremos un mayor enfoque en sistemas más pequeños y elegantes (especialmente aquellos que pueden caber en una sola máquina), y habrá más énfasis en hacer que los sistemas tengan el tamaño correcto (en términos de datos, cómputo, etc. ) para el problema en cuestión y un enfoque en el uso del análisis y la comprensión de los datos, sobre el cálculo, como una ventaja.

Ecosistemas de datos e intercambios

La aparición de intercambios de datos está claramente relacionada con los problemas de propiedad de los datos descritos anteriormente. Permiten que los datos se intercambien bajo un conjunto claro de reglas con propiedad y condiciones determinadas contractualmente. También permiten que una empresa tenga un modelo comercial viable como proveedor de datos y, por lo tanto, brindan datos útiles a todo el ecosistema sin tener que competir también en cómo se utilizan los datos.

Curiosamente, aunque tener un formato común ayuda, la mayoría de los esfuerzos para hacer cumplir la representación común (infinitos formatos blahXML de interminables consorcios industriales) realmente no han hecho mucho. Las personas tienden a encontrar una manera de combinar datos sin importar cómo estén representados; es mucho mejor liberar datos sin procesar antes que conservarlos hasta que se “limpien” (siempre se puede liberar la versión limpiada también). Por esta razón, la tecnología que se puede utilizar para limpiar datos y particularmente las tecnologías para estructurar datos textuales serán cada vez más importantes.

El principal desafío con estos (aparte de los problemas de propiedad y privacidad, que no desaparecen) está en la determinación del valor. Los datos sobre congestión de tráfico pueden valer mucho más para una red de entrega que para un sitio web mashup de “100 peores lugares de tráfico en Springfield”. O en el mundo de los anuncios, los datos sobre “intenders de la moda” son mucho más valiosos para un minorista de moda en línea que un concesionario de automóviles, a pesar de que hay algo de valor (ya que las personas que pueden pagar la alta moda tienden a cambiar sus automóviles con más frecuencia). El gran desafío en torno a los ecosistemas e intercambios de datos será el desarrollo de modelos de precios que midan y reflejen las diferencias en el valor de los datos para cada cliente. Estos modelos también deberán reflejar el valor de las combinaciones de fuentes de datos (dos fuentes de datos pueden ser más valiosas cuando se combinan que la suma de sus valores por separado).

Solo hay unos pocos problemas fundamentales de escalamiento de algoritmos si los destila a sus elementos esenciales. Conozco exactamente dos empresas que actualmente se dirigen a ellos de manera seria.

Los problemas de algoritmos distribuidos masivamente que están frenando la mayoría de los avances de Big Data son: paralelismo de unión (por ejemplo, análisis gráfico), indexación de intervalos (por ejemplo, polígonos geoespaciales) y procesamiento de restricciones. No puede resolver estos problemas con tablas hash distribuidas, requiere un modelo teórico diferente de cómo distribuye el cálculo.

Las principales empresas con tecnologías nacientes legítimas en este espacio son IBM Research (menos indexación de intervalos) y SpaceCurve. Ambos están utilizando una nueva ciencia de la computación que no es de Hadoop para paralelizar operaciones como uniones. La capacidad de generalizar la escala de los análisis de Big Data sin usar MapReduce es un avance importante.

¡Hola! Trabajo en G2 Crowd, un sitio de revisión de software tecnológico que trabaja para crear transparencia en el mundo B2B. Trabajo en el equipo de contenido y, además de crear informes basados ​​en datos de fuentes múltiples, también escribimos publicaciones de blog que analizan tendencias, tecnología emergente, innovación y casos de uso sobre el software presentado en nuestro sitio.

He adjuntado un enlace a todas las publicaciones del blog que analizan el análisis predictivo, y recomiendo sinceramente revisar el enlace y revisar nuestro sitio. El análisis predictivo es una de mis categorías y he estado fascinado con todo lo que ocurre en la industria.

Revisiones de software y servicios empresariales | Multitud G2

¡Espero que ayude!