¿Cómo es ser un científico de datos en Microsoft? La tecnología cambia la vida futura

Microsoft, siendo una gran empresa con más de 100,000 empleados, tiene múltiples grupos, cada uno con sus propios científicos de datos (parte de la disciplina de Datos y Ciencias Aplicadas). El enfoque y las responsabilidades difieren, pero hay eventos compartidos que reúnen a muchos (por ejemplo, hay una Conferencia interna anual de Aprendizaje automático, Análisis y Ciencia de datos, y mi equipo organiza una conferencia semestral llamada OneAnalyst).

Soy el Gerente General del Grupo de Análisis y Experimentación, que tiene un subgrupo de aproximadamente 25 científicos de datos en el grupo de Inteligencia Artificial e Investigación.

En lugar de tratar de generalizar a todo Microsoft, compartiré lo que es ser un científico de datos en mi equipo. Para el contexto, necesito describir al equipo, así que perdóname por una pequeña digresión. La misión del equipo de Análisis y Experimentación es acelerar la innovación a través de análisis y experimentación confiables. Brindamos cuatro servicios clave: la plataforma de experimentación, que ejecuta más de 1,000 experimentos controlados (p. Ej., Pruebas A / B / mes), herramientas de análisis (nuestras herramientas tienen miles de usuarios activos mensuales), servicios de análisis (más abajo) y educación ( enseñamos clases, charlas y damos miles de HiPPO para ayudar a cambiar la cultura http://www.exp-platform.com/Page…).

Entonces, ¿cómo es ser un científico de datos en el equipo de Análisis y Experimentación?

Los científicos de datos tienen una amplia exposición a una gran cantidad de productos clave en Microsoft, desde Bing hasta Office y Skype. Nos suscribimos en exceso y priorizamos nuestro trabajo en función de varios factores, como el valor esperado a largo plazo para Microsoft.
Debido a que nuestro enfoque es ayudar a los equipos a estar más orientados a los datos y evaluar hipótesis utilizando experimentos controlados (por ejemplo, pruebas A / B), los científicos de datos deben poder interactuar con múltiples grupos y ayudarlos a través de esta transición cultural. Ayuda que Satya Nadella, y anteriormente Qi Lu, estén presionando para que este sea de arriba hacia abajo.
Si bien nos esforzamos por hacer que la plataforma y las herramientas sean de autoservicio, los científicos de datos sirven como el centro de excelencia para los experimentos más difíciles e interesantes. Por ejemplo, ayudamos a los experimentadores a analizar resultados sorprendentes y comprender las causas subyacentes. Algunos experimentos mueven la aguja en decenas o cientos de millones de dólares, por lo que tenemos un fuerte enfoque en la calidad y la confiabilidad de los datos.
Proporcionamos herramientas para hacer que los científicos de datos y otras disciplinas sean más efectivas, ya sea a través de depuración, resumen de datos, capacidad de unir fuentes rápidamente y producir informes, etc. Nuestros científicos de datos guían el desarrollo de características de estas herramientas y sirven como usuarios beta, por lo que Las herramientas mejoran su productividad. Las herramientas ideales automatizan las partes aburridas del trabajo de los científicos de datos, para que puedan centrarse en los problemas desafiantes.

Los científicos de datos exitosos de mi equipo aprecian mucho la confiabilidad de los resultados. Calculan las cosas de dos maneras diferentes o triangulan a través de múltiples fuentes, entienden muchas trampas en experimentos no controlados e intentan orientar a las organizaciones hacia el estándar de oro en la ciencia para establecer la causalidad: experimentos controlados. Cuando las cosas parecen extrañas, los científicos de datos invocan la ley de Twyman http://bit.ly/twymanLaw y (generalmente) encuentran un problema subyacente. Los científicos de datos con experiencia pueden simplificar problemas complejos y saber que una respuesta aproximada hoy vale mucho más que una respuesta (presunta) mejor dentro de tres meses, especialmente cuando la respuesta “mejor” tiene que hacer más suposiciones que resultan ser una fuente de errores y sobreajuste. Publicamos nuestro trabajo en conferencias y confiamos en la retroalimentación de los pares para impulsar el sobre. Ver http://exp-platform.com