¿Cuáles son las diferencias entre el científico de datos, el ingeniero de datos y el ingeniero de aprendizaje automático?

hmm

Usted pregunta sobre los títulos de trabajo, pero creo que quiere una respuesta que explique los roles que desempeñan las personas (o se supone que deben jugar).

Le sugiero que revise este documento. Podría ayudar.

El documento a tamaño completo está aquí: Data Science no es una isla – ByteSumo Limited

El diagrama se llama trillium-venn, un tipo de diagrama que inventé, y ahora uso mucho. En él, hay un trillium azul que define equipos (círculos) y propósito en texto azul.

El trillium amarillo muestra el efecto y el propósito de la colaboración entre los equipos. Cuando este diagrama se ejecuta en el sentido de las agujas del reloj, la ciencia de datos / aprendizaje automático comenzará a transformar una organización.

Si considera que mi diagrama es un “Modelo operativo”, queda claro cuáles son las diferencias en los roles y por qué son necesarios. Las habilidades detrás de esos roles cambiarán con la tecnología, pero los roles en sí mismos son bastante estables.

(1) Científico de datos: explica el arte de lo posible, ayuda a definir hipótesis, prueba los datos para su propósito, retroalimenta problemas con la recopilación de datos, diseña experimentos, construye prototipos, entrena / ajusta modelos, documenta y explica la efectividad de los modelos / prototipos Ayuda a explicar y entregar proyectos exitosos a ingenieros de datos para la industrialización en los sistemas de producción.

(1.b) Ingeniero de Aprendizaje Automático: a menudo es un especialista en el equipo de Ciencia de Datos, que se centra particularmente en un tipo de aprendizaje automático, y sus métodos y herramientas para ajustar y entrenar modelos, y potencialmente hacer I + D para construir nuevos tipos de modelos. Nota: esto puede adaptarse a tipos específicos de datos y algoritmos. Por ejemplo, un ingeniero de algoritmos de gráficos, un ingeniero de aprendizaje profundo, un ingeniero de procesamiento de lenguaje natural, etc.

(3) Ingeniero de datos: trabaja en el equipo que crea herramientas de procesamiento de datos de grado de producción que se escalan, son resistentes y seguras. Se centran en componentes y plataformas compatibles reutilizables, y tienen un gran interés en los flujos de datos, ETL e integraciones de sistemas, todo lo que coloca los modelos de ciencia de datos en los sistemas de producción. Es probable que también estén trabajando arduamente para crear flujos de datos de monitoreo de desempeño e inteligencia de negocios, y / o almacenes de datos, lo cual es parte de su herencia.

Espero que ayude.

UNA

Recorramos el viaje de los datos. La generación de datos comienza en sistemas transaccionales (como ERP, CRM: Costoso), redes sociales, sistemas nuevos o externos (lo adquiere) y censura o registros del servidor. (IOT) Ahora, para dar sentido a estos datos, debe llevarlos a una plataforma central (tradicionalmente data-warehouse y hoy en día un Data Lake). Después de eso, tienes que limpiar, unir, masajear y comprenderlo. Ahora, no todos conocen estos datos, por lo que debe hablar con varias personas y darle sentido.

En general, en una organización, el director o los altos ejecutivos presentan un caso de uso. Digamos que un banco quiere construir un sistema analítico donde el usuario pueda dividir sus gastos en múltiples categorías, como restaurantes, compras, etc.

Para esto, contratan personas para completar este proyecto. El equipo involucra personas técnicas y funcionales.

1. Ingeniero de datos: traen datos de varios sistemas al lago de datos y luego se transforman según los requisitos del equipo funcional.

2. Científico de datos: cuando tiene un problema difícil, necesita un científico de datos. Por ejemplo, cómo clasificar un gasto en varias categorías, ya que la mayoría de los proveedores solo tienen nombres pero no categorías. Se reúne con un equipo funcional y comprende los datos y se le ocurre un algoritmo que puede clasificar estos gastos según sea necesario.

Muchas veces, los científicos de datos también son ingenieros de aprendizaje automático, pero a medida que este campo se complica, varias personas solo se centran en algoritmos de aprendizaje automático y no en métodos estadísticos. Se llaman ingenieros de aprendizaje automático.

Entonces, para llevar datos al lago de datos y hacer toda la ingeniería de datos y luego estructurar datos no estructurados, recientemente aparecieron en el mercado conjuntos de herramientas versátiles como OvalEdge.

Los ingenieros de datos son profesionales de datos que están preparando infraestructura de big data para ser analizados por científicos de datos.

Los científicos de datos son responsables de convertir los datos sin procesar en inteligencia y conocimiento. Están aplicando estadísticas, aprendizaje automático y enfoques analíticos para resolver problemas empresariales o científicos.

Los ingenieros de aprendizaje automático aplican modelos predictivos en diferentes conjuntos de problemas y son responsables de producir software que funcione de manera autónoma con una supervisión humana mínima

Esta es la respuesta según Pawoon.

Data Scientist es una idea de construcción y un modelo basado en datos de muestra.

El ingeniero de ML es un modelo de implementación creado por un científico de datos para toda la empresa.

El ingeniero de datos diseña y automatiza toda la canalización de datos y, a veces, administra el presupuesto de computación en la nube.

Un ingeniero de aprendizaje automático es un ingeniero de software que se enfoca en construir modelos de aprendizaje automático. Por lo general, estas personas están conectando su trabajo a un producto. Por ejemplo, podrían elegir qué anuncios mostrar a una persona o detectar spam.

Un ingeniero de datos es un ingeniero de software que se enfoca en construir infraestructura para trabajar con datos. Esto puede ser la construcción de canalizaciones de datos, visualizaciones o herramientas estadísticas; procesamiento de registros; o descubrir cómo almacenar y acceder a todas las cosas que has acumulado.

Una persona con un título de científico de datos podría estar desempeñando cualquiera de esos dos roles y simplemente ser llamado científico de datos. Hay un tercer rol, que es convertir los datos en ideas, que un científico de datos también podría tener. Esto incluye explicar movimientos métricos, comprender cómo los usuarios trabajan a través de un producto y analizar experimentos. A veces, las personas que realizan este trabajo se denominan analistas con “científico de datos”, lo que generalmente implica una mayor sofisticación técnica.

Un científico de datos es una persona que lucha con los datos para encontrar información, mientras que un ingeniero de datos construye la infraestructura de big data para ser utilizada por los científicos de datos. Por otro lado, un profesional de aprendizaje automático introduce datos y lógica en las máquinas para hacerlo inteligente.

Los científicos de datos se centran principalmente en la construcción de modelos y codificación.

Los ingenieros de datos están ocupados con la obtención de los datos y la infraestructura que se utilizará para los modelos. En la imagen, ve que la ingeniería de datos está al lado de la infraestructura y antes que los científicos de datos. En la práctica, los ingenieros de datos tienden a ser más personas de CS y los científicos de datos podrían estar más orientados a las estadísticas. Los dos a menudo se superponen, por lo que los ingenieros de datos podrían trabajar como científicos de datos y viceversa, aunque no estén especializados.

Los analistas de datos suelen ser menos técnicos que los científicos de datos, por lo que podrían tener antecedentes comerciales y utilizar Excel para un análisis más fácil (sin codificación, modelado pequeño) en comparación con los científicos de datos. Con el bombo publicitario de Big Data, muchos analistas de Data se convirtieron en científicos de Data. Es por eso que no están en la imagen de datos. Son trabajos más tradicionales.

More Interesting

¿Cuáles son algunos ejemplos específicos donde el análisis de datos topológicos (TDA) supera los puntos de referencia estándar de la industria en datos disponibles públicamente?

¿Cuánto importa el tema de tesis doctoral para conseguir un buen trabajo?

¿Vale la pena cambiar de carrera de ciencia de datos a actuario?

¿Qué trabajo se da a los estudiantes de primer año en el análisis de datos?

¿Cuál sería un buen problema de recomendación de Kaggle para elegir como un proyecto corto?

Tengo 29 años, estoy desempleado y espero un hijo a fin de año. Estoy tomando un curso en ciencia de datos. ¿Qué más puedo hacer para estar a la vanguardia del juego cuando empiezo a buscar trabajo nuevamente en 2016?

¿Qué puede hacer Java por un científico de datos que Python / R no puede?

¿Por qué, en su opinión, tantas compañías de investigación clínica se niegan a usar Python en lugar de SAS o R?

¿Hay empresas en la India que empleen estudiantes universitarios y los capaciten en Big Data Analytics / Data Science?

¿Hay alguna reunión de ciencia de datos en Chennai, India?

¿Por qué es importante el núcleo en los algoritmos de aprendizaje automático, como SVM o k-NN?

¿Cómo funciona Elasticsearch? ¿Y cómo funciona para la minería de datos y big data?

Cómo hacer un trabajo orientado a la investigación en big data

Para los científicos de datos, ¿es una buena práctica dividir sus datos en varias tablas, cada una con un 'tipo' de variable?

¿Cuál es mejor, MSBI o Big Data?