¿Cuál es la diferencia entre un científico de datos y un ingeniero de aprendizaje automático?

Creo que se supone que hay diferencia entre los dos perfiles. Desafortunadamente, la mayoría de las líneas de tiempo se difuminan en la industria, lo que termina confundiendo a las personas.

Aquí están mis 2 centavos en esto:

La principal diferencia se debe al objetivo y al público final o consumidor del trabajo respectivo. Un científico de datos es una persona que tiene sentido con los datos , utilizando algo de ciencia . El sentido es la palabra clave de funcionamiento. Y eso es lo que subraya la diferencia de objetivos aquí.

Para un científico de datos, se trata de sacar conclusiones, inferencias, interpretaciones de los datos. Eso se puede hacer usando modelos de aprendizaje automático o haciendo pruebas de hipótesis (A / B) o incluso creando una nueva métrica de producto y validando a través de procedimientos estadísticos. En todos los ejercicios, el objetivo final de un científico de datos es comprender los datos.

Para un ingeniero de aprendizaje automático, el objetivo final es hacer que una máquina aprenda de los datos. El objetivo no es explicar o interpretar los datos para una mejor inferencia, sino construir un sistema en forma de un producto que sea mejor para predecir el objetivo final. La atención se centra en la predicción más que en la inferencia, a diferencia de lo que los científicos de datos intentan lograr.

Ahora la pregunta obvia. ¿Por qué ambos tienen objetivos diferentes? ¿No están ambos trabajando en los mismos datos y usando ciencia?

Bueno, los objetivos son diferentes porque el consumidor final o la audiencia del trabajo es diferente. Para los científicos de datos, el público final o consumidor es normalmente el lado comercial de una organización. Gente o un gerente de producto que posee un producto que quiere entender cómo está funcionando su negocio o producto. Por lo general, dicha audiencia es de origen empresarial con poco conocimiento técnico . Y es por eso que un científico de datos tiene la responsabilidad adicional de poder comunicar sus resultados y hallazgos en una interpretación muy poco técnica.

Para un ingeniero de aprendizaje automático, el consumidor final o la audiencia del trabajo suele ser el lado tecnológico de una organización. Y la atención se centra más en construir un sistema utilizando tecnología en lugar de comprender el lado comercial de las cosas. En consecuencia, la conversación aquí trata con más conocimientos técnicos en lugar de tener que explicar cualquier hallazgo o sacar conclusiones de una manera no técnica al consumidor final del trabajo.

Y debido a la diferencia en la naturaleza del trabajo y los objetivos, hay una ligera diferencia en la expectativa del rol. Un científico de datos puede ser cualquier persona con buenas estadísticas, aprendizaje automático y algunos antecedentes en codificación. Para un ingeniero de aprendizaje automático, ya que su objetivo es construir un sistema que aprenda de los datos, la atención se centra más en habilidades de codificación / ingeniería de software bastante buenas con conocimiento de aprendizaje automático y algunas estadísticas.

Fundamentos Esencialmente, la diferencia radica en el enfoque . El científico de datos es un término general para profesionales de amplio y estrecho enfoque en análisis de datos e ingeniería. Por otro lado, un ingeniero de aprendizaje automático es simplemente un científico de datos, centrándose en el dominio de aprendizaje automático (ML) del campo más amplio de la ciencia de datos.

Conocimiento. Los diferentes títulos no implican que los ingenieros de aprendizaje automático sepan menos que sus colegas menos centrados, tal vez, todo lo contrario es cierto, al menos con la suficiente frecuencia. Prácticamente todos los ingenieros de ML que he conocido (en línea y en persona) tenían al menos el mismo conocimiento en conceptos, métodos y herramientas generales de la ciencia de datos que nosotros, los científicos de datos. Los ingenieros de ML a menudo tienen más conocimiento, tal vez, debido a la relativa complejidad del dominio de ML (especialmente su área de IA) en comparación con el análisis de datos estadísticos generales.

Terminología. Una nota más. No estoy de acuerdo con Dima Korolev en que el título de ingeniero de ML implica centrarse en la ingeniería frente a la ciencia . Desde mi experiencia, no es el caso. Yo diría que el ingeniero de ML y el científico de ML dicen lo mismo; el primero es solo un término más popular, probablemente, utilizado para enfatizar la complejidad y la participación en la ingeniería algorítmica , que es una característica central del dominio de ML . Dicho esto, la diferencia en un par similar de términos generales de ciencia de datos existe (y, creo, eso es lo que provocó la nota de Dima sobre la distinción). Es decir, el científico de datos y el ingeniero de datos son de hecho dos títulos muy diferentes, que representan dos perspectivas y áreas de enfoque muy diferentes en la ciencia de datos. Una buena ilustración de este argumento es la existencia de dos programas de becas independientes relevantes y populares de ciencia de datos (un término general, nuevamente): el Programa Insight Data Science Fellows y el Programa Insight Data Engineering Fellows.

Científico de datos es un término vago, en el mercado significa alguien que puede manejar grandes datos. Big data significa Gbs o TBs de datos, el trabajo del científico de datos es visualizar los datos y obtener resultados significativos para obtener ventas. Como descubrir el boom de clientes el miércoles, lo cual es poco probable, pero los datos lo respaldan, un miércoles después de fin de año financiero o un miércoles de año nuevo chino. Básicamente, organizar y comprender los datos.

El trabajo del ingeniero de aprendizaje automático es predecir. El aprendizaje profundo (un subconjunto de ML y un superconjunto de IA) se ramifica en CNN, que se utiliza para predecir objetos en una imagen, un algoritmo muy famoso, que detecta y clasifica objetos como automóviles, bolsos, animales en la imagen dada, luego está LSTM para crear bots de chat, o use el aprendizaje profundo para enseñarle al robot a caminar o a los drones a volar.

Básicamente, si quieres un trabajo bien remunerado, opta por ser un científico de datos. Todas las compañías bancarias y financieras como JP Morgan, Goldman Sachs … las prefieren. Si quieres innovar o diseñar algo, ve por el aprendizaje automático.

Para el científico de datos, debe aprender sobre Tableau, la vida del software de visualización de datos. Para el aprendizaje automático, aprenda Tensorflow o Keras (no he trabajado en caffe, sin embargo, sé que tiene una sintaxis redundante).

Si quieres ser millonario, sé un científico de datos si quieres construir un traje de Iron Man, aprende ML (y Ros).

Editar: Pero nuevamente necesitarás millones para construir un traje de Iron man, así que aprende mejor ambos. XD

Estos roles están tan mal definidos y no estandarizados que le costará mucho obtener una respuesta directa. Por lo general, sin embargo, en mis equipos, así es como se descompone:

  • Los analistas realizan análisis de causa raíz, desarrollan experiencia en el dominio e ingeniería de características basadas en esos conocimientos (resuelvo algunos conjuntos de problemas, por ejemplo, no los que requieren un aprendizaje profundo)
  • Los científicos de datos (a veces superpuestos con los primeros) eligen la implementación real de los mecanismos de decisión, qué algoritmos, en qué orden, en qué segmentación.
  • Los ingenieros de aprendizaje automático implementan los desarrollos de los científicos de datos en la producción, con un enfoque en la optimización del rendimiento.

Sin embargo, el mejor de los casos es que a través del uso de herramientas e infraestructura muy buenas, los científicos de datos también son los ingenieros de ML. Eso ocurre con menos frecuencia cuando dichos científicos de datos son divas de doctorado, lo que explica por qué tiendo a no contratarlos.

En mi opinión, ambos roles están interrelacionados pero son un poco diferentes entre sí. Sin embargo, al mismo tiempo, algunas compañías pueden usar estas designaciones indistintamente. Permítanme agregar un poco más de color en cada uno de estos roles.

Un científico de datos generalmente se enfoca en desarrollar un modelo completamente nuevo, hacer ingeniería de características, seleccionar las herramientas y técnicas correctas, y finalmente responder las preguntas de negocios haciendo modelado estadístico y soluciones. Esto también puede implicar un aprendizaje profundo.

Además, una gran parte de sus actividades cotidianas es también establecer una relación de causa y efecto entre la variable dependiente y las características.

Por otro lado, un ingeniero de aprendizaje automático puede centrarse más en llevar estos modelos que fueron desarrollados por los científicos de datos a la producción y la automatización. Contribuyendo de este modo significativamente en la realización del retorno de las inversiones (ROI) de la actividad de desarrollo del modelo.

Aclamaciones

Un ingeniero de aprendizaje automático es un ingeniero de software que se especializa en la creación de aplicaciones de software que involucran el aprendizaje automático, generalmente cuando se aplica a la analítica predictiva. Un ingeniero de aprendizaje automático generalmente tendrá algún tipo de título en informática con un enfoque en aprendizaje automático y / o inteligencia artificial.

Un científico de datos es un profesional multidisciplinario con una gran comprensión de estadísticas, negocios, modelado de datos, visualización de datos y aprendizaje automático, generalmente como se aplica a la minería de datos.

Los científicos de datos generalmente tienen doctorados en campos científicos difíciles, como la astrofísica o una maestría en estadística o ciencia de datos específicamente.

Si eres un ingeniero de aprendizaje automático que trabaja en una empresa que emplea científicos de datos, es probable que el científico de datos sea tu jefe o actúe como propietario de un producto para un equipo de desarrolladores, dirigiendo lo que trabajas.

Creo que ya ha habido algunas respuestas excelentes aquí, pero me gustaría agregar mis dos centavos, ya que siento que muchas de las respuestas parecen implicar que el científico de datos tiene una base estadística / científica más profunda. No creo que esto sea cierto. Sin embargo, me gustaría agregar que, obviamente, los roles varían mucho de una compañía a otra, y tal vez esta falta de estandarización tendrá que resolverse en el futuro. Resumiré mis puntos en viñetas para facilitar la lectura.

  1. Creo que el término “científico de datos” se está diluyendo rápidamente y perderá rápidamente su significado. En una empresa como Google, puede estar trabajando a un nivel muy alto con los modelos modernos de aprendizaje automático, mientras que en otras empresas, es esencialmente un analista de datos glorificado.
  2. Estoy de acuerdo con la respuesta de Manish Tripathi de que los científicos de datos se enfrentan mucho más a los clientes. Las partes interesadas podrían incluir marketing de consumidores, desarrollo de audiencia, publicidad, etc. Por lo general, querrán probar ciertas hipótesis (es decir, ¿es mejor tener reproducción automática para trailers en Netflix?) Y necesitan un científico de datos para configurar el experimento y Hacer una conclusión estadísticamente rigurosa. Hay mucho más de un proceso de traducción: hacer estadísticas rigurosas y luego encontrar una manera de comunicar esos resultados a personas potencialmente no técnicas. Existe un equilibrio equitativo (en la mayoría de los casos) entre el diseño experimental y la construcción del modelo , con quizás un ligero enfoque en los experimentos (esto depende de la compañía y el papel, por supuesto). Dependiendo de la compañía, tienen que ser codificadores decentes, pero no ingenieros. Si algo entrara en producción, al menos probablemente contarían con la ayuda de ingenieros en algún nivel para hacer que su código sea más robusto (aunque este no es siempre el caso).
  3. Los ingenieros de aprendizaje automático deben estar muy bien entrenados en modelos de aprendizaje automático en un grado que va más allá de saber cómo hacer una regresión logística o un bosque aleatorio: a menudo implementan modelos personalizados a gran escala en un entorno de producción. En este sentido, creo que los ingenieros de ML necesitan comprender los algoritmos en sí mismos a un nivel más profundo que un científico de datos. A menudo son responsables de implementar algoritmos de trabajos recientes que no tienen bibliotecas existentes. La mayoría de los científicos de datos a menudo usarán modelos estándar de sklearn (por ejemplo), pero necesitan comprender las matemáticas subyacentes para implementarlos adecuadamente. Por otro lado, un ingeniero de ML puede necesitar comenzar desde cero para implementar un modelo (aunque esta es una posición de investigación límite).

En general, creo que depende en gran medida de la compañía, pero creo que, aparte del diseño experimental, el ingeniero de ML necesita tener al menos (si no más) conocimiento sobre ML que un científico de datos, mientras que potencialmente tiene menos capacitación en pruebas de hipótesis.

Hay una gran diferencia entre los dos. El papel de un científico de datos es mucho más amplio y varía con respecto a la descripción de la empresa y el trabajo, mientras que el papel del ingeniero de aprendizaje automático es más específico.

El aprendizaje automático es una de las habilidades requeridas por los científicos de datos.

Los ingenieros de aprendizaje automático participan en la arquitectura y el diseño de software; Entienden prácticas como las pruebas A / B en sistemas de producción. Entienden problemas como el registro y la seguridad; y saben cómo hacer que los datos de registro sean útiles para los ingenieros de datos. Un ingeniero de aprendizaje automático tendría una sólida formación en la nube, sistemas distribuidos, bases de datos y un poco de aprendizaje automático. Un trabajo de MLE implicaría establecer almacenes de datos, tuberías de limpieza de datos, implementar algoritmos de ML en la lectura de producción del almacenamiento distribuido (HDFS / S3 / etc.), tal vez usando Spark, Hadoop, Hive, etc. Él / ella sería responsable de administrar el infraestructura y canalizaciones de datos necesarios para llevar el código a producción.

Por lo general, los roles de Data Scientist giran más en torno a las fuentes de datos existentes, atendiendo ventas, negocios y BI.

Los científicos de datos abordan problemas discretos utilizando datos preexistentes para validar modelos. No se espera que los científicos de datos tengan fuertes habilidades de ingeniería de sistemas. Se centran en el algoritmo y el análisis; no están operando en el lado del software. En el proceso de desarrollo de algoritmos y análisis, los científicos de datos también realizan la tarea crítica de recopilar, limpiar y preparar los datos correctamente, lo que puede ser la parte más lenta de su trabajo. Quizás utilicen tecnologías como R, SAS o Python .

Uno es científico, el otro es ingeniero.

Incluso podría llegar a aceptar que el científico de datos sería lo mismo que “científico de aprendizaje automático” y que “ingeniero de datos” sería lo mismo que ingeniero de aprendizaje automático.

La diferencia está en el objetivo.

El trabajo de un científico: investigar, explorar, analizar, explicar, presentar.
El trabajo de un ingeniero: diseño, construcción, lanzamiento, resolución de problemas, soporte.

Huelga decir que con los grandes ingenieros de datos solo se benefician de estar en la ciencia y los científicos solo se benefician de estar en la ingeniería.


En aras de la exhaustividad, yo mismo me asociaría principalmente con científicos de datos, pero tengo demasiada experiencia en la construcción de cosas para no estar haciendo eso. Se siente un poco triste Pero me permite hablar como científico de datos a pesar de ser prácticamente un ingeniero.


Editar: Debo agregar que imaginar y crear modelos de aprendizaje automático es el área que se adapta tanto a científicos como a ingenieros.

Todavía hay una diferencia, y se adoptará un enfoque: un ingeniero pensaría “¿cuál sería una solución sólida que se puede enviar?”, Un científico pensaría “¿cuál es la forma natural de explicar mis datos que se pueden modelar prácticamente?”

La industria de la ciencia de datos: quién hace qué (infografía) Me gustan estas infografías y creo que se ajusta bastante a su pregunta.

Aprendizaje automático = Hacking Habilidades + Matemáticas + Estadísticas + Python / R + Algoritmos

Ciencia de datos = Aprendizaje automático + Conocimiento de dominio