¿En qué medida los roles de Data Science requieren familiaridad con Machine Learning?

¿En qué medida deberían los roles de la ciencia de datos requerir familiaridad con el aprendizaje automático?

Las estadísticas tienen muchas herramientas básicas que todos los científicos de datos usan regularmente, como pruebas de comparación, GLM, reducción de dimensionalidad y distribuciones de probabilidad.

Machine Learning tiene un conjunto similar de herramientas básicas. Bosques aleatorios, SVM y algoritmos de agrupamiento por nombrar algunos. Como es un requisito mínimo, cualquier científico de datos debe saber cómo funcionan estos algoritmos (en sus formas básicas) y cómo aplicarlos.

Esta es la calificación mínima para ser considerado un científico de datos en mi opinión. No puedo concebir roles que llamaría Data Science que no utilizan estas herramientas.

La mayoría, pero no todos, los científicos de datos deben estar familiarizados con los algoritmos de ML para la reducción de la dimensionalidad. También redes neuronales, redes neuronales convolucionales y otros temas de investigación candentes en el campo. A diferencia de lo básico, muchos científicos de datos (pero aún la minoría) no necesitarán una comprensión exhaustiva de cómo funcionan las NN bajo el capó. Siempre que comprendan las implicaciones de conceptos como la propagación inversa y la adición de capas ocultas en las aplicaciones.

Un poco pero no mucho.

Data Science ha superado con creces sus humildes comienzos. Ya no es un flujo de trabajo ampliado que admite el equipo de aprendizaje automático. Ahora es la única forma de ser una empresa Data Driven. En una charla reciente, conjeturé que dentro de veinte años la gente se sorprenderá de que antes hubiera otros departamentos además de Data Science.

La mayoría de las empresas tratan con clientes. La mayoría de las empresas intentan aprender de las experiencias. La mayoría de las empresas necesitan estar en constante cambio. De ahí la ciencia de datos!

Sin embargo, el aprendizaje automático es una pequeña parte de la ciencia de datos que trata exactamente qué tipo de método de aprendizaje automatizado producirá los mejores resultados. Debido a las recientes innovaciones en Deep Learning, la solución se ha convertido universalmente para lanzar Deep Learning.

Permítanme tomar un ejemplo de uno de los mayores éxitos de Data Science … Comercio de alta frecuencia.

El aprendizaje automático se usa mucho en el comercio de alta frecuencia, sin embargo, la mayoría de las personas en esta línea de negocios impulsada por la ciencia de datos no saben mucho sobre el aprendizaje automático. Ellos saben cómo usarlo.

More Interesting

¿Qué necesita aprender un ingeniero de software para ingresar a la ciencia de datos o la carrera de big data?

Cómo comenzar una carrera como ingeniero de datos, no como científico de datos

¿Cómo desarrollar un sistema de predicción de salud inteligente web utilizando la minería de datos? ¿Cuál es la mejor manera y herramientas?

Dado que la mayoría del software de procesamiento de flujo de Apache está escrito en Java, ¿debería estudiarlo exclusivamente para Big Data y el campo de transmisión de datos?

¿Qué es un lago de datos en el contexto de big data?

¿Cuáles son las diferencias entre las carreras universitarias de ingeniería industrial, investigación de operaciones, ciencias de gestión y ciencias de datos?

Para cursos en línea de ciencia de datos / análisis; ¿Qué sería mejor: Edureka (Cubriendo R y Machine Learning) o AnalytixLabs (Cubriendo R, SAS y Excel)?

¿Cómo reconocer a Rising Stars en el campo de los negocios? Que métodos

¿Cuál es la forma de explorar mis datos más fácilmente?

¿Cómo ayuda la normalización de datos en Machine Learning?

¿Cuáles son algunas aplicaciones de la ciencia de datos en neurociencia?

¿Por qué Data Science es tan popular en los Estados Unidos pero casi inexistente en Suiza?

¿Hay algún sitio web gratuito como freecodecamp para aprender aprendizaje automático, inteligencia artificial y ciencia de datos?

¿Cuáles son las mejores herramientas de minería de datos web gratuitas automatizadas?

¿Qué son los datos internos?