Alguien sugirió que “la gente asume que los proveedores [en big data] no van a comenzar a ofrecer herramientas / IU que el lego con conocimientos básicos de estadísticas podría aprovechar”. ¿Se comercializará la ciencia de datos?

La ciencia de datos es una colección de herramientas preferidas para resolver problemas, combinada con alfabetización numérica y la capacidad de un individuo para comprender un problema. Si bien las herramientas se pueden comercializar (y se han comercializado, ver R), y cada vez aparecen más personas con esta alfabetización numérica, quedarán muchas áreas importantes que son difíciles de comercializar, particularmente la capacidad de comprender un problema y sugerir características .

Primero, la ingeniería de características es una tarea importante de la mayoría de los científicos de datos en algún momento. Si bien muchos, muchos problemas de predicción podrían resolverse con regresión lineal o regresión logística (y las implementaciones de estos ya están comercializadas), la parte más importante del problema es generar el conjunto de características que alimentarán la regresión. Esto requerirá (1) comprender los matices del dominio del problema en cuestión; (2) comprender las limitaciones y la disponibilidad de datos; y (3) comprender las transformaciones y combinaciones de características que tienen sentido.

En segundo lugar, muchos estadísticos dedican gran parte de su tiempo a recopilar datos. La recopilación de estos datos requiere un código específico de dominio, y alguien (ya sea un ingeniero o un científico de datos) tendrá que escribir este código. Los estadísticos también dedican gran parte de su tiempo a los datos de verificación de la cordura. Esta es una parte importante de su responsabilidad, ya que los datos están mal la mayor parte del tiempo, y es importante arreglarlos o entender cómo están mal. Basura adentro = Basura afuera (o peor).

Por lo tanto, es poco probable que la ciencia de datos en sí misma se convierta en mercancía en el corto plazo. Dicho esto, es concebible que más ingenieros y gerentes de producto comiencen a aprender suficientes estadísticas para que una fracción mayor sepa cuándo aplicar la regresión básica a un problema, colocando a algunos de los estadísticos menos capacitados (es decir, aquellos que solo saben cómo usar R pero no mucho más) sin trabajo.

No creo que estaremos allí pronto. Tengo una publicación de blog sobre esto (vea la parte inferior de la respuesta), pero mi punto principal es que si bien tenemos muchas herramientas disponibles, realmente necesita saber lo que está haciendo.

A los algoritmos de análisis de datos realmente no les importa si les das de comer basura o haces las preguntas incorrectas, siempre te darán algunos números y luego es tu turno de poder interpretarlos y descubrir si tiene sentido o no.

Es muy fácil equivocarse. El análisis de datos siempre se trata de inferir cosas de los datos que tiene a datos futuros. Entonces, una parte importante del conjunto de habilidades que necesita es evaluar datos finitos dados si sus resultados son lo suficientemente generales. Si lo haces mal, tus resultados se verán increíbles pero no se mantendrán a la altura de la realidad. Peor aún, si sus primeros intentos no funcionan, no hay forma de saber si ese es realmente el final o si existen enfoques alternativos que puedan encontrar la información que está buscando. Por lo tanto, otra habilidad importante es tener una comprensión profunda del tipo de procesamiento de información que está realizando, en particular, comprender cómo las diferentes representaciones de datos pueden enfatizar qué aspectos de sus datos.

Todo esto requiere experiencia y conocimiento que es difícil de poner en las herramientas en este momento. Probablemente eventualmente tengamos herramientas que tengan las mejores prácticas incorporadas, pero aún necesita saber lo que está haciendo.

Finalmente, la discusión actual me recuerda un poco la emoción con la programación visual a mediados de los 90. En aquel entonces, la gente decía que ya no necesitamos programadores porque en el futuro la gente solo puede hacer clic visualmente en los programas. Bueno, todos sabemos lo bien que resultó. Además de la programación GUI, la codificación es tan intensiva en texto como siempre.

Aquí está el enlace a mi publicación: Análisis de datos: las partes duras

Si cree que Data Science está escribiendo algoritmos de aprendizaje automático como SVM, Gaussian Mixture Models, Bayesian Neworks, etc., entonces tal vez sí. Quizás por dos razones:
1) Incluso los modelos utilizados regularmente tienen varias opciones (tome LIBSVM, por ejemplo) y parámetros para ajustar en función de los datos. Se necesita cierta experiencia en el tema para saber qué funciona mejor.
2) Es posible que deba combinar varios modelos o ajustarlos a su pregunta específica (como crear un nuevo núcleo específico de problema para SVM)

Sin embargo, si cree que la ciencia de datos es una función de mapeo de datos y preguntas para obtener información / respuestas, entonces no. A medida que aumenta el volumen de datos, también lo hace la posibilidad de responder nuevas preguntas.

Dicho esto, es mejor que la comunidad tenga herramientas estandarizadas (como Scipy) para los algoritmos básicos, al igual que tiene implementaciones estándar de estructuras de datos de uso común en la mayoría de los lenguajes de programación. La capacidad real de un programador radica en el uso de herramientas existentes para resolver un problema, y ​​creo que lo mismo vale para Data Science.

Un científico de datos trabajará en el desarrollo de nuevos algoritmos y presentará nuevos patrones e ideas sobre los datos que de otro modo permanecerían ocultos. “Junto con las estadísticas, un científico de datos puede tener una calificación en economía, y definitivamente necesita una docena o más de experiencia trabajando con diez a quince herramientas de BI”, dice Chuck Hollis, vicepresidente de marketing global y CTO, EMC.

un proveedor de servicios de análisis y ciencia de decisiones dice que “los científicos de datos también incursionarán en psicología experimental, antropología y ciencias sociales”. Con la necesidad de establecer centros de excelencia de BI (CoE), los análisis se institucionalizarán. Hadoop All in 1, Data Science, Statistics and Probability – Clases de capacitación de cursos combinados en línea | Hadoop All in 1, ciencia de datos, estadística y probabilidad: cursos combinados en línea

Con la llegada de las redes sociales impactando la mayoría de las facetas de los negocios, las organizaciones esperan integrar la tecnología, el software social y el BI para crear un entorno de toma de decisiones agradable. El científico de datos será responsable de proporcionar un contexto social a la información. BI y análisis bailan a una nueva melodía cuando adoptan nuevos enfoques como Hadoop. No esperan datos estructurados, limpios y prístinos, sino que trabajan con una mezcla de datos para proporcionar un análisis en tiempo real o cercano. La analítica descriptiva, la analítica inquisitiva, la analítica preventiva y prescriptiva son parte del nuevo paradigma, con el científico de datos en el centro.

La curva de evolución se está moviendo del soporte de decisiones a ser cada vez más operacional, con una progresión inminente que llevará la competencia estratégica a un nivel completamente nuevo con los científicos de datos en la imagen. BI entró en escena hace quince años y TI era el propietario de estas iniciativas. Ahora, BI es una función comercial que involucra investigación de mercado con un enfoque central en análisis. Las compañías con grandes volúmenes de datos (internos y externos) irían a The Notion Market sin pestañear, pero las compañías más pequeñas lo pensarían dos veces antes de pagarle a alguien para hacer algo que su proveedor de BI les dijo que haría su producto de BI. preguntas de la entrevista de ciencia de datos | Top y más solicitados | Intellipaat

Sin embargo, no es que haya científicos de datos en abundancia, todos clamando por empleos. Por el contrario, como dice Hollis de EMC, “Hay una escasez de talento. Por cada científico de datos, hay treinta trabajos esperando “.

Cuando el software de análisis agnóstico y autodirigido está muy extendido, muchas de las tareas actuales de juicio y aplicación de los científicos de datos se comercializarán. Pero sospecho que será útil durante muchas décadas más saber qué problemas vale la pena resolver, qué preguntas hacer y cómo formularlas. Esto me parece la esencia del valor de un científico de datos cuando la imaginación artificial obvia la experiencia en el dominio y las herramientas de modelado. Y no, por imaginación artificial no me refiero al aprendizaje profundo. Ambos están aquí hoy, pero solo uno elimina la necesidad de experiencia en el dominio.