¿Cuál es la diferencia entre un ingeniero de aprendizaje automático y un científico de datos en Quora?

Los ingenieros de aprendizaje automático son parte de la organización de ingeniería en Quora, mientras que los científicos de datos son parte de la organización de ciencia de datos en Quora.

Al más alto nivel, la organización de ingeniería construye el producto y los algoritmos, asegurándose de que funcione de manera confiable, rápida y a escala. La organización de ciencia de datos trabaja en la comprensión de los datos de Quora para informar las decisiones comerciales y de productos.

Tanto los ingenieros de aprendizaje automático como los científicos de datos participan en el aprendizaje automático en Quora. En el contexto del aprendizaje automático, el resumen principal de las diferencias es el siguiente:

  • Los ingenieros de aprendizaje automático construyen, implementan y mantienen sistemas de aprendizaje automático de producción.
  • Los científicos de datos realizan investigaciones para generar ideas sobre proyectos de aprendizaje automático y realizan análisis para comprender el impacto de las métricas de los sistemas de aprendizaje automático.

Los ingenieros de aprendizaje automático y los científicos de datos tienen otros roles en la empresa, pero para esta respuesta solo cubriré su participación en el aprendizaje automático en Quora.

Aquí está el desglose general de cómo cada uno de los roles utiliza el aprendizaje automático:

Ingenieros de aprendizaje automático …

  • Cree e implemente sistemas de producción de aprendizaje automático (por ejemplo, recomendaciones, clasificación personalizada y mucho más, como se describe en ¿Cómo usa Quora el aprendizaje automático en 2017?).
  • Mantenga la salud de los sistemas de aprendizaje automático, incluida la velocidad, la confiabilidad y el rendimiento.
  • Desarrolle marcos internos de abstracción de aprendizaje automático y abstracciones para facilitar tareas comunes como capacitación / prueba, uso / reutilización / creación / almacenamiento de características e implementación. Estas abstracciones son utilizadas tanto por ingenieros de aprendizaje automático como por científicos de datos.

Científicos de datos …

  • Evalúe enfoques, características, algoritmos y métricas de error potenciales / existentes para ayudar a mejorar los sistemas de aprendizaje automático.
  • Analice el impacto de los algoritmos de aprendizaje automático en las métricas clave. Esto implica el análisis ad-hoc de las pruebas A / B y la comprensión de cómo los sistemas de ML se ajustan a las métricas de alto nivel de la empresa.
  • Investigue y comprenda los patrones de comportamiento del usuario, como el compromiso mediante la construcción de modelos de aprendizaje automático. Estos modelos de aprendizaje automático están hechos para análisis únicos y no se ponen en producción. Su objetivo principal es ayudar a evaluar ideas.

Un proyecto de aprendizaje automático a menudo estará integrado por científicos e ingenieros de datos. La forma en que funciona la colaboración se resume mejor en un flujo de tres pasos: los tres pasos en este flujo ocurren continuamente y siempre con el objetivo de optimizar la velocidad de desarrollo. Aquí están los pasos:

  1. Los científicos de datos realizan investigaciones para identificar posibles necesidades o mejoras en los sistemas de aprendizaje automático
  2. Los ingenieros de aprendizaje automático construyen, implementan o mejoran el sistema de aprendizaje automático
  3. Los científicos de datos evalúan el impacto del sistema de aprendizaje automático en las métricas de la compañía

Para obtener más información sobre cada uno de los roles (¡o para postularse! ¡Estamos contratando!), Puede consultar las respectivas ofertas de trabajo en https://www.quora.com/careers

Estoy esperando la respuesta de William Chen, pero aquí está la diferencia habitual en otras compañías:

El ingeniero de aprendizaje automático suele ser responsable de:

  • Implementación de algoritmos
  • Desarrollo de interfaces de servicios ML para otros ingenieros.
  • Construyendo tuberías para el proceso de minería de datos

Todas estas actividades generalmente se realizan en un lenguaje general de uso generalizado, como C ++ / Java.

Data Scientist es una persona que realmente usa las cosas que ha construido el Ingeniero de Aprendizaje Automático.

  • Hacer prototipos de modelos en R / Python
  • Escritura de trabajos para la herramienta local construida sobre un marco de clúster, por ejemplo, Spark con interfaces adicionales para bases de datos particulares
  • Visualizar datos y hacer informes.