¿Cómo deberían funcionar mejor la ciencia y la ingeniería de datos?

En mi presentación en MLConf en San Francisco, describí mi punto de vista sobre cómo combinar con éxito la ciencia de datos y la ingeniería de aprendizaje automático en una organización. El objetivo final es, por supuesto, tener equipos de Ciencia e Ingeniería de Datos que sean eficientes e impactantes para el producto y la empresa. Por otro lado, desea atraer a personas con talento y ofrecerles crecimiento y oportunidades.

Esta es una situación bastante novedosa y que no es trivial acertar a menos que haya experimentado con ella. De hecho, muchas compañías han luchado con esto o están luchando mientras hablamos. El modelo que propongo responde no solo a mi propia experiencia personal, sino también de hablar con muchas personas en los equipos de Ciencia e Ingeniería de Datos en muchas compañías.

La mejor manera de explicar el modelo es pensar en un embudo de innovación de tres etapas (ver más abajo):

Se puede pensar que cualquier proyecto basado en datos tiene 3 fases distintas: (1) Investigación de datos, (2) Creación de soluciones y (3) Experimentación.

En la fase de investigación de datos, los científicos de datos observan los patrones existentes en los datos y formulan hipótesis sobre cómo mejorar el producto y también pueden proponer enfoques. En la fase de Solución, los ingenieros crean la solución. Finalmente, en la fase de Experimentación, los científicos de datos lideran el diseño de pruebas AB para verificar la validez de la hipótesis original y las soluciones que se han implementado.

Un par de aclaraciones:

Primero, tenga en cuenta que, si bien los científicos e ingenieros de datos pueden pertenecer a diferentes organizaciones, lo que describí anteriormente significa que deberían trabajar juntos, de la mano, en cualquier proyecto basado en datos.

Además, tenga en cuenta que si bien describí estas como “fases de un proyecto”, sería más preciso describirlas como fases en una iteración . Un proyecto dado, ejecutado de manera ágil, debe tener como objetivo tener la mayor cantidad posible de esas iteraciones, cada una de ellas ejecutada también lo más rápido posible. El hecho de que las fases 1 y 3 del modelo estén lideradas por Data Science también facilita la iteración ya que los científicos de datos llevarán el resultado de la experimentación nuevamente a la fase de investigación de datos. Este proceso iterativo es, de hecho, análogo al Método Científico mismo ilustrado a continuación:

Solo agregaré que el límite entre Data Science y el equipo de ingeniería debe ser borroso. De hecho, creo que es mucho mejor describir a los equipos en términos de su enfoque en lugar de sus límites. Del mismo modo, la diferencia entre un científico de datos y un ingeniero de ML también es borrosa y depende tanto de la elección de carrera personal como de los antecedentes personales. Como regla general, en el equipo de ingeniería se le pedirá que tenga un nivel “razonable” de habilidades de codificación / ingeniería de software. Pero no se espera que todos en el equipo de ingeniería sean gurús de la codificación porque podrían estar aportando otras habilidades, como una sólida experiencia en aprendizaje automático. Lo mismo es cierto sobre Data Science.

Para obtener más detalles, el científico de datos de Quora, William Chen, respondió una pregunta sobre Quora dando aún más información sobre cómo hemos ejecutado este modelo en Quora.

More Interesting

Cómo usar Python para ciencia de datos

¿Cuáles son los preparativos iniciales para unirse a un programa de ciencia de datos para una nueva?

El MIT está ofreciendo un curso de certificado de Big Data y Social Analytics (enlace en la descripción). ¿Cómo ayudaría a un científico / ingeniero de datos?

¿Cuánto tiempo debe ejecutar una prueba A / B en su sitio antes de declarar a uno ganador?

¿Qué tipo de análisis de datos puedo hacer en las redes sociales usando R?

¿Cuáles son las preguntas más frecuentes sobre entrevistas de ciencia de datos?

¿Cuál es exactamente la diferencia entre IA, aprendizaje automático y ciencia de datos? ¿Cómo puedo hacer una carrera en el mismo?

¿Qué significan para las personas las frases "desarrollo basado en datos" y "productos basados ​​en datos"?

Al seguir una carrera en ciencia de datos, ¿un doctorado en economía sería más beneficioso que una maestría en ciencia de datos?

Pruebas A / B: ¿Es útil el diseño de una base de datos de esquema en estrella para las empresas tecnológicas que experimentan continuamente?

Cómo encontrar las publicaciones más populares en un sitio web

¿Cuál es la diferencia entre la tabla de clasificación pública y privada en Kaggle?

¿Qué será mejor para un empleado de TI con experiencia de 3 años, para seguir un curso a tiempo completo o un curso a tiempo parcial en Data Science?

¿Big Data contiene programación?

¿Qué es mejor seguridad de la información o ciencia de datos?