¿Cuánto tiempo durará la exageración de la ciencia de datos antes de que se sature? ¿Y cuál podría ser la próxima tendencia?

Copiando de otra de mis respuestas a esta pregunta: ¿Es la ciencia de datos una moda?

Ayer estaba teniendo la misma discusión con un colega senior. Según él, Data Science y Big Data son solo una moda y un problema de investigación. Lo que las empresas quieren es un producto procesable, algo que genere valor. ¿Y cómo genera valor la ciencia de datos?

Esto me entristeció un poco por la poca gente que entiende el dominio y cómo tienen sesgos inherentes en cuanto a lo que comprende la ciencia de datos.

Para hablar sobre la ciencia de datos en el uso comercial, primero me gustaría definir lo que llamo “La elección”.

Tiendo a ver los buenos negocios como negocios que toman buenas decisiones. Por ejemplo

– Para una empresa de gestión de riesgos, la opción es tomar medidas / no tomar medidas en una tarjeta.
– Para una empresa de marketing, la opción es utilizar la estrategia publicitaria correcta.
– Para una cadena de comercio electrónico, la opción es mostrar productos relevantes a sus usuarios en línea.
– Para una aerolínea, la opción es la estrategia de fijación de precios del boleto.

¿Y cómo hacen estas empresas estas elecciones? ¿Por intuición? Probablemente. Pero no sería mejor si aprendieran del pasado a dejar de cometer los mismos errores una y otra vez. ¿Eso tendría sentido? Y eso es ciencia de datos para ti.

La mayoría de las veces los gerentes discutían sobre todo tipo de preguntas como:

– ¿Data Science solo está creando modelos?
– ¿Llamarías a una tabla dinámica de Excel como Data Science?
– ¿Qué pasa con ETL? ¿Es eso ciencia de datos?
– ¿La ciencia de datos implica pensamiento algorítmico?
– ¿Qué pasa con las visualizaciones de datos para marcos web / portales?
– Prueba de hipótesis. ¿Sigue siendo Data Science?
– ¿Alguien que use herramientas de Big Data como Hadoop / Spark se llamaría científico de datos?

Y la respuesta es realmente simple:

“Cualquier observación valiosa que pueda derivarse de datos que no son directamente visibles con solo mirar unas pocas filas es ciencia de datos”.

Puede usar cualquier herramienta, cualquier modelo o cualquier interfaz de visualización. Mientras no clasifique las opciones, no será de valor.

Alternativamente, puede usar cualquier herramienta / modelo / visualización siempre que genere valor a partir de datos, es ciencia de datos.

Entonces, ¿la ciencia de datos está muriendo o es una moda pasajera?

Soy muy optimista con respecto a la ciencia de datos, ya que aprender del pasado se está volviendo realmente importante para que las empresas sigan siendo competitivas. En mi opinión, siempre habría una escasez de personas que pudieran luchar con los datos y ensuciarse las manos para descubrir información valiosa.

Y el juego sería: ¿Quién usa mejor sus datos?

Empresas como Google, Amazon son tan grandes en función de cómo manejan sus datos. En este momento Bing está muy por detrás de Google en el negocio de la publicidad de búsqueda. ¿Porqué es eso? Porque google ha usado sus datos de una mejor manera. Aunque dos doctores. los estudiantes no podrán vencer a Google en su juego, incluso si crean el mejor algoritmo de búsqueda, una compañía como Bing siempre buscaría encontrar este mejor algoritmo y siempre buscaría personas con talento que puedan utilizar los datos.

¿Por qué se subestima la ciencia de datos?

La razón principal por la que las personas subestiman la importancia de la ciencia de los datos es que no es cuantificable. Al ser un proceso de descubrimiento de conocimiento, es muy intermitente y es posible que tenga que esperar para obtener una sola respuesta. Esto lleva a algunas personas a etiquetarlo como un problema de investigación y no merece todo el aprecio que está recibiendo. Pero como dije, todo se trata de “The Choice”. Y si no lo logras, tu competidor lo haría.

Estoy de acuerdo con Daniel Gutiérrez en que la aplicación de la ciencia de datos no tiene un final definido. Dado que existe una escasez significativa de científicos de datos, las personas ya idearon servicios que permitieron a los novatos utilizar el aprendizaje automático avanzado [1]. Entonces, en lugar de un final del “bombo”, veremos cómo los servicios de ciencia de datos de hoy en día se convierten en una mercancía, mientras que la fusión con más disciplinas y verticales ofrece amplias oportunidades para la creatividad de los científicos de datos. Hoy en día, las verticales son salud, agricultura y seguridad nacional. Permítanme discutir brevemente por qué creo que no hay saturación a la vista y cuáles son algunas de las avenidas prometedoras.

Un punto de bifurcación a buscar es aplicar ML a la codificación. Los VC piden lo que sigue después de la codificación y aumentar la eficiencia es clave para la prosperidad económica. Actualmente es propenso a errores y requiere mucho trabajo. Pero como Peter Norvig comprobó, se puede ganar mucha eficiencia aplicando técnicas y principios de ML [2].
Otra trayectoria emocionante es la llegada de dispositivos verdaderamente autónomos. Todos somos conscientes de los robots de rastreo web y de los autos sin conductor, pero permitir que las entidades realicen acciones novedosas sin supervisión transformará nuestra forma de pensar sobre la ciencia de datos. El principio general es cerrar un ciclo importante: en lugar de analizar datos para la inteligencia utilizada para influir en el comportamiento humano, las entidades impulsadas por los datos realizarán experimentos por su cuenta [3]. Por lo tanto, veremos un cambio de modelos fuera de línea a modelos en línea, de procesamiento por lotes a arquitecturas en tiempo real y de almacenamiento de datos a almacenamiento de modelos tan exquisitos.
Por último, las técnicas convencionales de aprendizaje profundo se aplicarán a los datos representados en los gráficos [4, 5]. Tal convergencia nos llevará a entidades impulsadas por datos que aumentan tareas que generalmente son solo para humanos, como cabildear mejor que nunca.

editar 10/12/15: fuente agregada [3] para ejemplos en entidades autónomas y semiautónomas emergentes (Shivon Zilis)

[1] entre esos muchos se encuentran, por ejemplo: http://www.ayasdi.com/ , http://www.splunk.com , https://scaledinference.com/ y http://aylien.com
[2] Aprendizaje automático para programación
[3] El estado actual de la inteligencia artificial 2.0

[4]

[5] https://www.palantir.com

No creo que haya una saturación per se por las razones que se mencionaron en las otras excelentes respuestas. Sin embargo, lo que creo que sucederá es que la barra será más alta para los científicos de datos. Hoy en día, todos los que conocen el aprendizaje automático básico, las estadísticas y la programación pueden llamarse legítimamente científicos de datos. Muy pocos de ellos, por ejemplo, saben cómo funcionan las redes neuronales convolucionales y cómo implementarlas (este es solo uno de los muchos ejemplos, también se podría decir que saben sobre clasificadores ingenuos de Bayes pero no han oído hablar de las redes de creencias bayesianas, etc.) ) Creo que en el futuro, tendremos más personas que sean capaces de ML básico, estadísticas y programación, lo cual es excelente, pero no todos serán necesariamente clasificados como “científicos de datos”.

EDITAR: Para trazar la línea entre los científicos de datos y las personas de aprendizaje automático con respecto al ejemplo que mencioné anteriormente: en mi opinión, los científicos de datos deben comprender y ser capaces de usar algoritmos de última generación (por ejemplo, ConvNets cuando se trata de visión por computadora tareas), sin embargo, no necesitan desarrollar esas técnicas; Aquí es donde entran en juego los investigadores del aprendizaje automático.

tl; dr: los científicos de datos utilizan técnicas de los campos de aprendizaje automático, programación y estadísticas para resolver problemas del mundo real. Los estadísticos, los investigadores del aprendizaje automático y los ingenieros de software desarrollan esas técnicas.

La ciencia de datos ha existido por mucho tiempo. Solía ​​llamarse análisis o simplemente estadísticas, y se empleó internamente en el goteo de datos generados por las empresas internas. Solo en los últimos 20 años (con el auge de la web y grandes conjuntos de datos de transacciones) la ciencia de los datos se ha ganado su propio apodo y enfatiza Big Data.

Varias formas de optimización de negocios (ciencia de gestión de AKA) y publicidad han analizado datos usando correlación y regresión desde alrededor de la Segunda Guerra Mundial. El aumento de la “ciencia de datos” se puede atribuir en gran medida al 1) aumento de la web / internet, 2) el creciente papel de la publicidad en todas las formas de medios, 3) la disponibilidad de un gran número de transacciones comerciales, y 4) el creciente nivel de competencia en los negocios. Todos estos requieren avances en análisis para reconocer y estimar tendencias y centrar la atención corporativa en si sus dólares publicitarios se gastan bien.

Sí, DS se utiliza para otros fines (seguridad, detección de fraude, vigilancia y enjuiciamiento policial, espionaje militar). Estos surgieron debido al crecimiento de los datos de telecomunicaciones y el uso de la web.

Por lo tanto, mientras la gran cantidad de datos persista, será necesario que las personas lo organicen y analicen, es decir, científicos de datos. ¿Cuándo disminuirá el bombo? Cuando el análisis de big data alcanza un punto de estancamiento y se convierte en una parte más de la infraestructura empresarial. OMI que no será largo. La mayoría de las empresas (aquellas que no están impulsadas por la publicidad) pronto se apartarán del combate cuerpo a cuerpo después de observar la falta de impacto de DS en sus resultados. Mientras tanto, las empresas basadas en publicidad flexibilizarán su demanda de científicos de datos para reflejar las mareas cambiantes de la demanda de datos, a medida que los medios y los negocios evolucionen.

a2a Data Science continuará siendo un tema importante de discusión durante algún tiempo. Mientras que en el pasado, muchas nuevas tecnologías se promocionaban hasta el punto en que las expectativas excedían con creces las capacidades reales, la ciencia de datos se ha entregado de manera más consistente en aplicaciones del mundo real. En realidad, está excediendo las expectativas en muchas áreas porque la tecnología puede cumplir con las visiones que las personas están discutiendo.

Las tecnologías subyacentes están evolucionando rápidamente y se acelerarán. Acabamos de comenzar a sondear las profundidades del aprendizaje profundo y muchos resultados sorprendentes están llegando al mercado, lo que alimentará aún más la emoción. La tecnología ha comenzado a moverse más rápido de lo que los hipsters pueden generar nuevas ideas.

Lo que ya comenzó a suceder es la segmentación de las técnicas de ciencia de datos en disciplinas específicas. Debido a que ahora tenemos acceso a grandes almacenes de datos, un requisito crítico para la mayoría de las tecnologías de ciencia de datos, la ciencia de datos se puede aplicar en muchas áreas. Por ejemplo, estamos a punto de ver mejoras significativas en las interfaces de conversación. Los bots de chat ya son lo suficientemente buenos como para engañar a algunas personas y la tecnología está llegando al mercado que permitirá que estos bots engañen a casi todos cuando conversen en un área temática limitada.

Parafraseando a Al Jolson en The Jazz Singer, ‘¡Todavía no has visto nada!’

La ciencia de datos aborda una pregunta muy importante para los tomadores de decisiones: qué hacer cuando se sienta en una gran pila de datos. Esa pregunta siempre es relevante, por lo que el “bombo” siempre está ahí. Prefiero pensar que habrá un cambio de dirección tarde o temprano. Actualmente, el enfoque de DS ppl es establecer una correlación entre los resultados y las covariables: predicción de los precios de las acciones utilizando ciertos atributos, etc., utilizando redes neuronales, bosques aleatorios, etc. Eso puede proporcionar algunas ideas. Pero más que a menudo, la correlación es espuria, lo que significa que hay algunos factores de confusión en su resultado que inducen esa correlación. En resumen, “la correlación no implica causalidad”.
En medicina, especialmente en la literatura sobre enfermedades crónicas (glaucoma, diabetes, etc.), la cuestión de la causalidad ha sido estudiada y abordada de manera algo adecuada. Se llaman problemas de “inferencia causal”. La cuestión ahora es cómo aplicar estas metodologías a otras aplicaciones. Más importante aún, cómo vender la idea de causalidad en sus estudios y análisis. Pero sigo pensando que la idea finalmente penetraría en el mundo de los negocios.

La ciencia de datos o, alternativamente, las personas responsables de analizar los datos estarán en demanda siempre que las empresas exijan la necesidad de estar ‘impulsados ​​por los datos’. Ser impulsado por los datos conduce a una ventaja competitiva. Esta ventaja fue mejor ilustrada por el libro “El arte de ganar un juego injusto” y su película “Money Ball”. Es decir, dado el análisis innovador de datos, uno podría construir una fórmula ganadora que explote las ineficiencias en las técnicas analíticas de los competidores. Por lo tanto, Data Science seguirá estando de moda simplemente porque crea una ventaja competitiva que las empresas no pueden ignorar.

Eso es lo bueno de la ciencia de datos, representa una confluencia de disciplinas probadas bajo un nuevo nombre. ¡No puedo imaginar que sus componentes, ciencias de la computación, matemáticas o estadísticas desaparezcan pronto!

ATA Creo que daría la misma respuesta que en la respuesta de Sean Owen a ¿Hasta qué punto deberían preocuparse los científicos de datos de que los algoritmos de aprendizaje automático se hagan cargo de sus trabajos algún día? La parte difícil de DS no es escribir código, sino comprender el problema, generar características y construir modelos. ¿ML conquistará eso? No sucederá solo porque “ciencia de datos” es un término tan amplio como “ingeniero de software”. Las herramientas y los enfoques entran y salen de moda, pero el acto de trabajar con datos seguramente no lo hará. Significará algo más el próximo año y en 10 años.

La ciencia de datos definitivamente no es una exageración y está aquí para quedarse. A medida que los datos crecen, los científicos de datos nos ayudan a comprender mejor los datos.
No estoy seguro de lo que significa moda aquí, pero aquí hay algunos avances interesantes.
1) http://www.technologyreview.com/…
2) http://www.technologyreview.com/…
Personalmente, creo que cualquier cosa que tenga que ver con los ‘datos’ biológicos sería la próxima tendencia.

Creo que el bombo ya se ha ido. Ha pasado bastante tiempo desde que leí un artículo sobre el científico de datos superhéroe / unicornio. Siento que la noción de científico de datos se entiende mejor.

Por otro lado, no creo que haya saturación. Como mencionó el usuario de Quora, los datos crecen y, con ellos, las necesidades de las personas que pueden manejarlos.

No sé cuál es la próxima tendencia. Espero que la próxima tendencia sea tener herramientas que permitan aliviar algunos de los dolores del flujo de trabajo, pero no sé si eso es todo.

¿Cuánto tiempo ha estado soportando el bombo CS? ¿Alrededor de 50 años ahora?

Tenemos los medios para manejar una gran cantidad de datos ahora, y también tenemos acceso a una gran cantidad de datos ahora. Habrá más datos y más cosas que deben hacerse con los datos en el futuro, no menos.

More Interesting

¿Cuál es un mejor instituto para el análisis de datos y la ciencia de datos en la India?

¿Cuál es una lectura más útil para alguien interesado en la investigación de LA: "Teoría del aprendizaje estadístico" de Vapnik, o "Elementos del aprendizaje estadístico" de Friedman / Tibshirani / Hastie?

¿Cómo se puede construir un conjunto de datos donde podamos consultar la deuda total para cada sección censal?

Tengo seis meses donde tengo que aprender Minería de datos y no hacer nada más. ¿Donde debería empezar?

Si está aprendiendo Data Science, ¿qué tan importante es saber cómo implementar modelos de Machine Learning en lenguajes de nivel inferior (por ejemplo, C ++ o Java)?

¿Cómo deberían los científicos de datos abordar una situación en la que el resultado de su trabajo afecta los medios de vida de otras personas?

¿Cuáles son los requisitos previos para aprender Hadoop y la ciencia de datos?

¿Existe una guía de inicio automático para PNL?

¿Vim es adecuado para la ciencia de datos?

¿Qué se necesita para que un estudiante de matemáticas e informática se convierta en un científico de datos?

¿Debo aprender Hadoop o Python si quiero entrar en big data?

¿Cómo puede un negocio crecer usando Big Data?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

¿Cómo se conecta Internet? ¿Cómo se transfieren los datos? ¿Cómo se accede a los datos desde diferentes países?

¿Dónde puedo buscar datos sobre la participación deportiva de la gente común en los Estados Unidos?