¿Cómo deberían funcionar mejor la ciencia y la ingeniería de datos? La tecnología cambia la vida futura

En mi presentación en MLConf en San Francisco, describí mi punto de vista sobre cómo combinar con éxito la ciencia de datos y la ingeniería de aprendizaje automático en una organización. El objetivo final es, por supuesto, tener equipos de Ciencia e Ingeniería de Datos que sean eficientes e impactantes para el producto y la empresa. Por otro lado, desea atraer a personas con talento y ofrecerles crecimiento y oportunidades.

Esta es una situación bastante novedosa y que no es trivial acertar a menos que haya experimentado con ella. De hecho, muchas compañías han luchado con esto o están luchando mientras hablamos. El modelo que propongo responde no solo a mi propia experiencia personal, sino también de hablar con muchas personas en los equipos de Ciencia e Ingeniería de Datos en muchas compañías.

La mejor manera de explicar el modelo es pensar en un embudo de innovación de tres etapas (ver más abajo):

Se puede pensar que cualquier proyecto basado en datos tiene 3 fases distintas: (1) Investigación de datos, (2) Creación de soluciones y (3) Experimentación.

En la fase de investigación de datos, los científicos de datos observan los patrones existentes en los datos y formulan hipótesis sobre cómo mejorar el producto y también pueden proponer enfoques. En la fase de Solución, los ingenieros crean la solución. Finalmente, en la fase de Experimentación, los científicos de datos lideran el diseño de pruebas AB para verificar la validez de la hipótesis original y las soluciones que se han implementado.

Un par de aclaraciones:

Primero, tenga en cuenta que, si bien los científicos e ingenieros de datos pueden pertenecer a diferentes organizaciones, lo que describí anteriormente significa que deberían trabajar juntos, de la mano, en cualquier proyecto basado en datos.

Además, tenga en cuenta que si bien describí estas como “fases de un proyecto”, sería más preciso describirlas como fases en una iteración . Un proyecto dado, ejecutado de manera ágil, debe tener como objetivo tener la mayor cantidad posible de esas iteraciones, cada una de ellas ejecutada también lo más rápido posible. El hecho de que las fases 1 y 3 del modelo estén lideradas por Data Science también facilita la iteración ya que los científicos de datos llevarán el resultado de la experimentación nuevamente a la fase de investigación de datos. Este proceso iterativo es, de hecho, análogo al Método Científico mismo ilustrado a continuación:

Solo agregaré que el límite entre Data Science y el equipo de ingeniería debe ser borroso. De hecho, creo que es mucho mejor describir a los equipos en términos de su enfoque en lugar de sus límites. Del mismo modo, la diferencia entre un científico de datos y un ingeniero de ML también es borrosa y depende tanto de la elección de carrera personal como de los antecedentes personales. Como regla general, en el equipo de ingeniería se le pedirá que tenga un nivel “razonable” de habilidades de codificación / ingeniería de software. Pero no se espera que todos en el equipo de ingeniería sean gurús de la codificación porque podrían estar aportando otras habilidades, como una sólida experiencia en aprendizaje automático. Lo mismo es cierto sobre Data Science.

Para obtener más detalles, el científico de datos de Quora, William Chen, respondió una pregunta sobre Quora dando aún más información sobre cómo hemos ejecutado este modelo en Quora.