¿Los científicos de datos estarán a la altura de nuestras expectativas o los grandes datos serán una decepción?

El hecho de que su pregunta equipare la Ciencia de datos con Big Data (no es su culpa) es un ejemplo del problema. El otro se relaciona con la naturaleza excesivamente académica de la ciencia de datos contemporánea.

Primero, una definición adecuada de Data Science. Data Science se trata de crear productos de datos , que son piezas de software que aprovechan el aprendizaje automático. Al encontrar nuevas formas de automatizar el aprendizaje que conecta la información en bruto con las decisiones, los productos de datos pueden reducir drásticamente la cantidad de pasos necesarios para tomar acciones inteligentes.

Ahora abordemos los 2 puntos mencionados al inicio; Big Data y ciencia de datos académicos

La cuestión del “Big Data”

Big Data se refiere a los avances en la recopilación y gestión de datos escalables. Las empresas necesitaban una forma de lidiar con su enorme base de usuarios en línea para sus aplicaciones web escaladas. Con la capacidad de recopilar grandes cantidades de datos surgió la idea obvia de que sería beneficioso analizar todos esos datos.

Si bien el nuevo enfoque en los datos fue excelente para los analistas, que habían estado promocionando los beneficios del análisis durante décadas, lo que siguió fue la desafortunada idea de que todas las técnicas de análisis perfeccionadas en las últimas 5 décadas también deben escalar. Específicamente, el aprendizaje automático, que es un análisis que se presta para el autoaprendizaje y el software adaptativo, debía situarse sobre estas arquitecturas de escala masiva; arquitecturas construidas completamente para un propósito que no tiene nada que ver con el análisis de datos.

La pérdida de algoritmos …

No solo una cantidad abrumadora de problemas del mundo real no requiere conjuntos de datos masivos para obtener información, sino que la cantidad de algoritmos que existen en las “soluciones escalables” es muy limitada. La información que obtienes al atacar un problema desde una variedad de ángulos, como se puede hacer usando los ricos y variados paquetes de computación científica en R y Python, supera drásticamente los supuestos beneficios de aplicar solo un puñado de algoritmos que suceden a escala. Todo el campo de la estadística se inventó con el único propósito de aprender algo sobre una población más grande utilizando solo un subconjunto más pequeño de esa población. Del mismo modo, la generalización buscada en el aprendizaje automático es solo eso; una generalización de ejemplos invisibles hacia alguna “idea” general de cómo funciona el sistema.

Esto significa que “aprender” es el objetivo principal, y pensar que el aprendizaje mejora con más datos pierde el punto de cómo funciona el aprendizaje. Sí, más información ayuda, hasta cierto punto. Pero aprender algo bien significa crear una buena aproximación de lo que estás estudiando. Las aproximaciones son las que hacen posible la generalización ya que solo las piezas conectivas centrales en los datos (“conceptos”) se utilizan para inferir el comportamiento futuro o explicar observaciones. El aprendizaje automático y, lo que es más importante, los productos de datos creados con él, funcionan cuando los datos pueden analizarse utilizando una variedad de algoritmos que construyen una aproximación (modelo) única de los datos. Por prueba y error, muchos intentos pueden intentarse rápidamente con el mundo diciéndonos qué funciona y qué no. La capacidad de analizar datos mediante la construcción de diferentes modelos, comparar esos modelos y elegir el mejor en cualquier momento es lo que hace posible el aprendizaje. Las aproximaciones revisadas es cómo ocurre el aprendizaje, y sin la variedad algorítmica para hacer esas revisiones, todos los datos del mundo no van a generar un aprendizaje relevante y continuo en el software.

Recuerde que las compañías reales no están interesadas en reconocer la expresión en la cara de un perro. Necesitan un producto que descargue gran parte del aprendizaje necesario para conectar la información en bruto con mejores decisiones. Esto requiere un producto que respalde una narrativa y produzca los tipos de resultados que se superponen con las decisiones del día a día. Con todas las compensaciones que entran y salen de consideración al usar diferentes algoritmos, no se puede saber por adelantado qué enfoque de aprendizaje automático es el mejor. La variedad algorítmica es clave para desarrollar productos relevantes y siempre supera la escalabilidad.

Ciencia de datos y Big Data: dos bestias muy diferentes

La cuestión esotérica

La segunda cuestión se relaciona con el enfoque académico utilizado en la ciencia de datos contemporánea. La mayoría de los avances en el aprendizaje automático provienen de detrás de las torres de marfil. Si bien le debemos mucho a la academia por estas innovaciones, el “mundo real” de la empresa adquiere un conjunto completamente nuevo de complejidad y demandas. Una consecuencia del uso del aprendizaje automático como herramienta central del científico de datos es la separación drástica que existe actualmente entre el análisis y el desarrollo de productos.

En las empresas, las personas están al frente y al centro y cualquier análisis realizado debe ser responsable de la forma en que las personas usan el software. Cuando el aprendizaje automático académico se inclina ante el Dios de la precisión predictiva (generalmente validado en conjuntos de datos sintéticos), la ciencia de datos se inclina solo ante los requisitos del mundo real de un producto que funciona.

La ciencia de datos debe salir de las “malas hierbas” académicas y aprender a involucrarse directamente en el desarrollo de productos. Esto significa llevar el aprendizaje automático al desarrollo temprano, ser ágil al intentar muchos algoritmos y validar los análisis con personas, tanto como las estadísticas.

Fuera de las malas hierbas y en el producto: API y el futuro de la ciencia de datos

¿Los científicos de datos estarán a la altura de las expectativas? Si esas expectativas son sinónimo de Big Data, entonces no, no lo creo. Sin embargo, si Data Science evoluciona hacia algo más alineado con el desarrollo de productos, creo que su futuro es muy brillante. Veo productos que utilizan el aprendizaje automático como una extensión natural del software, y listos para realizar cambios importantes en la forma en que la sociedad se involucra con la tecnología. Esto eliminará la capacidad de abstraerse de las preocupaciones excesivamente académicas y centrarse en los esfuerzos creativos y centrados en las personas de los analistas inteligentes que entienden lo que realmente se necesita para crear un software que aprenda.

El concepto del científico de datos es interesante para mí. Tiendo a tener un punto de vista algo diferente cuando se trata de científicos de datos y el papel que juegan los grandes datos en una organización promedio hoy en día.

Si recuerdo los roles que la gente ha jugado en la empresa hace 10-15 años, la mayoría de los departamentos tenían (y muchos todavía lo hacen) este tipo de “gurús de Excel y SQL” que eran bastante buenos para extraer datos y realizar análisis sobre ellos. He visto algunas soluciones muy creativas realizadas en Access, Excel y SQL Server que funcionan bien para propósitos de departamentos individuales. Luego llegó la mayor adopción de Enterprise Data Warehouse con plataformas de informes comunes utilizadas en toda la empresa. Ahora tenemos una función común llamada analista de datos o negocios que generalmente interactúa con interfaces fáciles de usar para realizar análisis de datos complejos.

Si observa las herramientas de big data hoy (Hadoop / NoSQL), a menos que sea un desarrollador experimentado de Java, son bastante difíciles de usar. Hive es muy limitado en lo que puede hacer en comparación con SQL. Pig es un lenguaje de script que también tiene limitaciones. Y todos se ejecutan en entornos únicos de Linux. Básicamente, para analizar los datos que residen en las soluciones de Big Data, necesita a alguien que comprenda los procesos comerciales, que sea bueno con Linux y que sea experto en Java / programación. Esto por sí solo haría que sea bastante prohibitivo para su organización promedio buscar una solución de big data y aún más cuando observa los conjuntos de habilidades necesarios para aprovechar el análisis de esos datos.

En resumen, creo que el concepto de científicos de datos es una solución temporal a un problema temporal. Hadoop pasó a 1.0 en diciembre de 2011. Hay empresas que ahora trabajan para simplificar cómo interactuamos y trabajamos con Big Data. Personalmente, creo que en los próximos años, el análisis de big data (el trabajo realizado por los científicos de datos de hoy) podrá residir con los analistas de datos / negocios tradicionales de hoy.

Creo que la ciencia de datos, tal como la definimos hoy, evolucionará hacia un campo más orientado a la ingeniería en los próximos cinco años. La pila de Hadoop continúa creciendo más compleja (esta presentación proporciona una buena visión general de esta transformación: http://www.slideshare.net/cloude …); en algún momento, será imposible para una persona mantener la arquitectura y los procesos de BI de una empresa y obtener información de los datos, porque para hacerlo se requeriría una profunda experiencia en el dominio en dos campos: ingeniería y estadística / econometría. Y aunque el modelado / análisis de datos no está más allá de las capacidades de un ingeniero calificado (y viceversa), no tendría sentido que alguien sea bueno en ambas cosas.

Al igual que lo hizo con la creciente popularidad del almacenamiento de datos, creo que “big data”, a medida que se convierte en un componente más central de la empresa moderna, se convertirá en una disciplina de ingeniería, con el papel de Data Scientist transformándose en algo que se parece más a un Administrador de datos: un ingeniero que recopila los requisitos de un equipo de estrategia / conocimiento y coordina la recopilación y el almacenamiento de datos. Se podrá acceder a esos datos a través de conjuntos de informes y herramientas de visualización, y el equipo de estrategia / conocimiento (que hace mucho tiempo se olvidó de cómo escribir los procedimientos de MapReduce) tendrá la libertad de concentrarse en el análisis.

Por lo tanto, en términos del valor obtenido de los grandes volúmenes de datos que ahora se pueden analizar y manipular, creo que la mayoría de las empresas determinarán que es valioso. Pero no creo que esa determinación tenga nada que ver con el campo de la “Ciencia de datos”, ya que el Analista MapReduce, mitad hombre / mitad mago, es una aberración transitoria alejada de la norma natural: analistas que realizan trabajo analítico e ingenieros que hacen trabajo de ingeniería.

Creo que es importante establecer que mucha ciencia de datos está relacionada con big data, pero los dos son independientes. Puede tener big data sin data science y puede tener data science sin big data.

Dicho esto, los grandes datos ya están a la expectativa porque hay muchas cosas que no podemos hacer sin ellos. Y eso es todo. Ya cumple su función y tanto las herramientas existentes como las nuevas siguen evolucionando para abordar nuevos desafíos. Big data es ahora y en gran parte, solo datos para muchas empresas medianas y grandes.

La ciencia de datos puede no cumplir con las expectativas principalmente porque el nivel se eleva realmente por todo el bombo creado en los últimos años. El problema es el bombo, no la entrega. No creo que la mayoría de las empresas sepan aprovechar la ciencia de datos y algunas empresas quieren aprovecharla, pero no tienen nada con qué aprovechar. Esto hace que la ciencia de datos sea un nicho mucho más pequeño de lo que la mayoría de la gente imagina. Si las empresas que no tienen la visión o los medios para aprovechar la ciencia de datos invierten mucho en ella, habrá un problema con el incumplimiento de las expectativas.

Imagine la situación genérica de una gran empresa con millones de clientes y algún tipo de datos transaccionales para cada cliente. Hay algunas cosas sensatas para probar con datos como ese. Por ejemplo: personalice su trato con cada cliente según su historial de transacciones.

Este es un tipo de problema inherentemente de datos grandes para el que parecen posibles grandes mejoras con respecto a la antigua personalización de datos pequeños basada en variables generales como la demografía. Por supuesto, este tipo de cosas ya es común en algunos dominios (web), pero supongo que todavía hay mucho espacio para hacer más de esto. Si los profesionales de Big Data abordan con éxito este tipo de problemas, realmente podrían ayudar a las empresas a funcionar mejor y, por lo tanto, estar a la altura de las expectativas.

Por otro lado, buscar cantidades masivas de datos para obtener ideas y contar historias interesantes me parece mucho menos prometedor. No puedo pensar en muchos éxitos reales que provienen de este tipo de enfoque (siéntase libre de corregirme sobre esto) y parece incurrir en un grave riesgo de hallazgos espurios. En la medida en que Big Data avance por este camino, supongo que la decepción está por venir.

Ya existe una tremenda dilución en la calidad del grupo de solicitantes de “ciencia de datos”. Mucha gente está cambiando a llamarse a sí mismos científicos de datos porque es un título candente, lo que agrava el verdadero problema: ¡nadie sabe qué demonios es la “ciencia de datos”!

He escuchado a los gerentes quejarse de que los solicitantes de “ciencia de datos” que entrevistan no pueden construir una arquitectura altamente escalable. He escuchado a otros gerentes quejarse de que sus solicitantes no pueden entender el dominio del problema. Otros se quejan de que los solicitantes son demasiado académicos; para otros, los solicitantes no son lo suficientemente académicos. Bueno, cuando la ciencia de datos es tan nebulosa, es difícil evaluar a un científico de datos.

Al tener una discusión con un amigo sobre este mismo tema, mi conclusión fue la siguiente: ganar dinero nunca pasará de moda. Si un individuo, una startup o cualquier otra entidad lo ayudan a ganar dinero, entonces es valioso. Suena como una tautología, pero es curioso la cantidad de basura de la ciencia de datos que trata de enfatizar la falta de sentido de la nueva era sobre “monitorear la visibilidad de la marca” o “aumentar la socialidad del comportamiento de las redes sociales de sus clientes”, todo lo cual es poco probable que tenga un impacto medible en El resultado final de un negocio.

No estoy seguro de cuál es la expectativa de un científico de datos, ¡aparte de que son la próxima gran cosa! Si es así, es poco probable que se produzca la exageración [de los medios].

La exageración en torno a los grandes datos es que las tecnologías ahora disponibles son más ágiles y las personas están dejando grandes rastros de datos a través de dispositivos móviles, en línea, actividad de pagos, etc. Todo esto es cierto y está justificado.

Sin embargo, como muchas personas han comentado sobre el WSJ, muchas compañías siempre han extraído sus datos y continúan haciéndolo, ya que es comercialmente rentable, por ejemplo, actuarios que evalúan el riesgo, analistas que evalúan las calificaciones crediticias, CRM de ventas y marketing, etc.

Los avances en la tecnología de big data no van a decepcionar en términos de su capacidad. El factor que a menudo siento que se pasa por alto es el elemento humano del big data. Esto puede crear una verdadera emoción o una desilusión abyecta.

Supongamos que el proceso seguido es [hay muchos otros flujos de proceso que podrían seguirse]: auditoría de datos, mapeo, extracción, validación, preparación, análisis, generación de conocimiento, presentación. Durante todo el proceso habrá intervención humana de algún tipo. Por ejemplo, la generación y presentación de ideas están impulsadas principalmente por la toma de decisiones humanas, en lugar de las máquinas, y todas las decisiones están limitadas por factores psicológicos y ambientales. Su experiencia, percepciones, prejuicios, expectativas, contexto, etc.

El requisito de capital humano es tener personas con experiencia en datos y que comprendan el contexto comercial. Por ejemplo, en marketing, las organizaciones deberían estar integradas por personal experto en estadística y comercialmente. ¿Es este un científico de datos y / o una persona de marketing? Después de haber pasado 20 años en Marketing, ¡no puedo pensar en muchos especialistas en marketing estadísticamente competentes!

En general, si elimina la exageración y observa la tecnología y el uso humano de la tecnología, nos estamos moviendo hacia una forma más ubicua de utilizar los datos en nuestras operaciones comerciales. Tenga expectativas realistas y disfrute del viaje, ya que valdrá la pena, ya sea usted un científico de datos o un tomador de decisiones comerciales que tenga acceso a la información de salida de Big Data.

Nota: Hay muchas otras formas de responder esta pregunta en función de factores psicológicos y ambientales (experiencia, percepciones, sesgos, expectativas, contexto, etc.) y también sería válida.

Estoy de acuerdo con la mayoría de las respuestas, especialmente las de Michael. Para agregar a eso, parece haber una tendencia en la que los equipos quieren aplicar metodologías de ‘big data’ a problemas que no son realmente big data. Esto es especialmente cierto en el lado de la empresa, donde muchas verticales no tienen realmente un problema de ‘big data’. Por lo tanto, se ve efectivamente reducido a la producción de “ideas” que a menudo no coinciden con las expectativas.

Y como alguien señaló, el campo se considera “candente”, hay una afluencia de personas que se pintan a sí mismas como “científicos de datos”, pero desafortunadamente no tienen fundamentos claros de estadísticas. Mucha gente piensa que la capacidad de aplicar ML algo X al conjunto de datos Y en R es suficiente para convertirlo en un científico de datos. Ese realmente no es el caso.

Haga una búsqueda en Google de un documento titulado “la efectividad irracional de los datos” publicado hace unos años en el dominio del procesamiento del lenguaje natural. En él, los autores de Google Research afirman que (al menos en este dominio) más datos con modelos simples triunfan sobre modelos más sofisticados.

Creo que este es el núcleo de lo que está impulsando el interés por los grandes datos. ¿Será verdad en general? No puedo decir … En muchos dominios esto parece ser cierto (publicidad, genómica). Pero como dicen, su kilometraje puede variar.

Algunos predicen que el mercado de la tecnología y los servicios de Big Data alcanzará los $ 16.9 mil millones en 2015, en comparación con los $ 3.2 mil millones en 2010. Esa es una tasa de crecimiento del 40 por ciento anual, aproximadamente siete veces la tasa de crecimiento estimada para la tecnología de la información general. y negocios de comunicaciones (NYT, IDC Research).

Dos áreas en las que veo una promesa inmediata de big data incluyen (1) atención médica y (2) fraude.

  • Durante mucho tiempo, la atención médica ha tratado de desbloquear la sabiduría de los datos internos / externos, que se encuentran en áreas dispares, para descubrir patrones dinámicos útiles a nivel del paciente. La comunidad médica está hablando activamente sobre aplicaciones, desde un compromiso mejorado hasta una mejor atención y tratamiento. Y están surgiendo negocios específicos en torno a esta misma idea (Rock Health tiene una excelente reputación en slideshare). EHR, PHR, la adopción de dispositivos médicos son tendencias adicionales de corriente subterránea que respaldan este caso, y la necesidad de grandes datos.
  • El fraude es un área donde quienes cometen el fraude intentan permanecer ocultos de manera sistemática. Big data ya se está utilizando en Banca, Seguros, Gobierno, etc. para pescar, y dar sentido a patrones sospechosos que de otro modo serían extraños. Esto implica extraer y analizar datos estructurados / no estructurados en entidades (por ejemplo, empresas, agencias gubernamentales) y áreas (por ejemplo, redes sociales). Big data facilita el procesamiento inteligente de miles de millones de registros de muchas fuentes diferentes y la búsqueda de los estafadores.

Obviamente, estos dos ejemplos representan solo una parte de la imagen más amplia y la oportunidad.

Big data llegó para quedarse. La huella global de datos se está expandiendo en un clip exponencial. La tecnología es la única forma de darle sentido a todo. Estas capacidades inevitablemente se volverán más sofisticadas, y el nombre en sí mismo “big data” puede cambiar con el tiempo (algunos ya están hablando de “datos dinámicos” como la siguiente fase).

Los datos son un factor limitante de la tasa actual: no podemos usar todo lo que tenemos de manera efectiva. Big Data promete que podremos impactar estos límites y traducir todos estos datos en conocimiento significativo.

No lo sé.

Mientras pueda hacer algunos análisis geniales y geniales que produzcan algunos resultados decentes, es bueno para mí.

En cuanto a las expectativas de otras personas … les digo claramente lo que puedo y no puedo hacer.

En cuanto a la parte de big data: big data o small data: lo más importante es comprender lo que hay en los datos, para que pueda transformarlos de una manera manejable (extracción de características) y ejecutar sus algoritmos para tratar de responder las preguntas comerciales en mano. – O proporcione un proxy o algo que esté lo suficientemente cerca de esas demandas.

Cuantos más datos, mayor es la probabilidad de que se pueda hacer algo útil con ellos, pero también aumenta el tiempo para encontrar esas agujas en el pajar (incluso con una pila de hadoop).

Habrá decepción, puede contar con eso.

Pero no antes de que las expectativas se inflen fuera de proporción y todos los que pueden deletrear “Big Data” obtendrán un trabajo líder en “Big Data Strategy” y los SI líderes venderán proyectos ultra costosos que implementan infraestructura de Big Data sin prestar atención a los beneficios comerciales reales.

Huelga decir que ya hay personas que están produciendo un valor real a partir de Big Data, y nuevas personas vendrán con buenas ideas nuevas. Continuarán entregando, sin embargo, ese núcleo pronto será enterrado bajo el tsunami de, bueno, diferentes tipos de ideas y enfoques comerciales. Y luego habrá decepción.

No creo que nadie haya tomado este enfoque hasta ahora. Un punto natural de comparación es con los quants que trabajan en finanzas. No soy un experto, pero hay al menos dos tipos muy diferentes de trabajo de datos que las personas cuantitativas están haciendo en finanzas. Decidir cómo negociar varios activos que podrían ser más líquidos y decidir cómo fijar el precio de los activos que podrían ser menos líquidos.

En algún momento en los años 90, la gente comenzó a contratar personas cuantitativas en Wall Street. Antes de eso, los precios y el comercio de las personas probablemente provenían de un entorno comercial o estaban en la fraternidad universitaria del CEO. Los nuevos chicos originalmente eran doctores en física, pero ahora hay muchos tipos académicos diferentes debajo de la carpa. Estos chicos y chicas destacaron y / o ganaron mucho dinero tanto en el lado de los precios como en el comercio, a pesar de que su experiencia en el dominio era mínima. Tendería a creer que las finanzas son una de las industrias más meritocráticas en las que puede trabajar, y por lo visto, estos cuantos han aportado mucho valor a sus empresas.

Como la gente ha dicho correctamente, los cuantos eran científicos de datos antes de que existiera el término. Lo que sucedió en la industria financiera hace unos veinte años ahora está comenzando a tener efecto en otras industrias. No se trata de tener un conjunto de competencias técnicas, es solo que las personas con antecedentes cuantitativos tienden a ser buenos en los problemas que se basan en datos, y las empresas más allá del mundo financiero están comenzando a darse cuenta de que contratar personas con estos antecedentes puede ser valioso.

Conozco a muchas personas que estudiaron matemáticas puras en la escuela de posgrado y luego tuvieron éxito trabajando con datos. Muchos de ellos pasaron cinco años solo tocando la computadora para escribir Latex. Antes, los que habían terminado con la academia iban a las finanzas, y algunos todavía lo hacen, pero muchos otros van a la ciencia de datos.

Su pregunta trata con los científicos de datos en su conjunto. Primero debes preguntarte los requisitos para convertirte en uno. Debe comprender lo fácil que es en comparación con otras especialidades. El estudio requiere una base en estadística, matemática aplicada y cs. La cubierta es cruzada y no profunda. También cumple con la estrategia comercial y la cultura laboral común. Prepara al científico de datos para integrar los viejos modelos de negocios en la tecnología informática moderna y los negocios efectivos como de costumbre. De qué manera cada científico de datos realiza el papel depende. En general, la educación los está preparando para esta difícil posición. Tiene poco soporte comercial antiguo y requiere esfuerzo de todos los socios de la empresa. Las grandes preguntas con resultados en blanco y negro rara vez son el caso en general. Puede responder su propia pregunta en una década, con una solución de sistemas y su evaluación. Mi proyección es que el desarrollo de la ciencia de datos tendrá su propio peso.

Mi impresión, y es bastante anecdótica, es que cuando las empresas llegan al punto en el que desean contratar a un “científico de datos”, prácticamente saben qué valor se esconde en sus grandes datos.

El problema es que el resto de nosotros nos preguntamos “hmm, tal vez hay grandes ideas en mi ‘big data’, tal vez debería contratar a algunos científicos de datos y analizarlo”.

Mi experiencia dice que es una receta para la decepción. Me gustaría tener la opinión de un “laico” de que había algunas ideas valiosas en mis datos antes de traer un peso pesado.