¿Cómo es ser un científico de datos en Microsoft?

Microsoft, siendo una gran empresa con más de 100,000 empleados, tiene múltiples grupos, cada uno con sus propios científicos de datos (parte de la disciplina de Datos y Ciencias Aplicadas). El enfoque y las responsabilidades difieren, pero hay eventos compartidos que reúnen a muchos (por ejemplo, hay una Conferencia interna anual de Aprendizaje automático, Análisis y Ciencia de datos, y mi equipo organiza una conferencia semestral llamada OneAnalyst).

Soy el Gerente General del Grupo de Análisis y Experimentación, que tiene un subgrupo de aproximadamente 25 científicos de datos en el grupo de Inteligencia Artificial e Investigación.

En lugar de tratar de generalizar a todo Microsoft, compartiré lo que es ser un científico de datos en mi equipo. Para el contexto, necesito describir al equipo, así que perdóname por una pequeña digresión. La misión del equipo de Análisis y Experimentación es acelerar la innovación a través de análisis y experimentación confiables. Brindamos cuatro servicios clave: la plataforma de experimentación, que ejecuta más de 1,000 experimentos controlados (p. Ej., Pruebas A / B / mes), herramientas de análisis (nuestras herramientas tienen miles de usuarios activos mensuales), servicios de análisis (más abajo) y educación ( enseñamos clases, charlas y damos miles de HiPPO para ayudar a cambiar la cultura http://www.exp-platform.com/Page…).

Entonces, ¿cómo es ser un científico de datos en el equipo de Análisis y Experimentación?

  1. Los científicos de datos tienen una amplia exposición a una gran cantidad de productos clave en Microsoft, desde Bing hasta Office y Skype. Nos suscribimos en exceso y priorizamos nuestro trabajo en función de varios factores, como el valor esperado a largo plazo para Microsoft.
  2. Debido a que nuestro enfoque es ayudar a los equipos a estar más orientados a los datos y evaluar hipótesis utilizando experimentos controlados (por ejemplo, pruebas A / B), los científicos de datos deben poder interactuar con múltiples grupos y ayudarlos a través de esta transición cultural. Ayuda que Satya Nadella, y anteriormente Qi Lu, estén presionando para que este sea de arriba hacia abajo.
  3. Si bien nos esforzamos por hacer que la plataforma y las herramientas sean de autoservicio, los científicos de datos sirven como el centro de excelencia para los experimentos más difíciles e interesantes. Por ejemplo, ayudamos a los experimentadores a analizar resultados sorprendentes y comprender las causas subyacentes. Algunos experimentos mueven la aguja en decenas o cientos de millones de dólares, por lo que tenemos un fuerte enfoque en la calidad y la confiabilidad de los datos.
  4. Proporcionamos herramientas para hacer que los científicos de datos y otras disciplinas sean más efectivas, ya sea a través de depuración, resumen de datos, capacidad de unir fuentes rápidamente y producir informes, etc. Nuestros científicos de datos guían el desarrollo de características de estas herramientas y sirven como usuarios beta, por lo que Las herramientas mejoran su productividad. Las herramientas ideales automatizan las partes aburridas del trabajo de los científicos de datos, para que puedan centrarse en los problemas desafiantes.

Los científicos de datos exitosos de mi equipo aprecian mucho la confiabilidad de los resultados. Calculan las cosas de dos maneras diferentes o triangulan a través de múltiples fuentes, entienden muchas trampas en experimentos no controlados e intentan orientar a las organizaciones hacia el estándar de oro en la ciencia para establecer la causalidad: experimentos controlados. Cuando las cosas parecen extrañas, los científicos de datos invocan la ley de Twyman http://bit.ly/twymanLaw y (generalmente) encuentran un problema subyacente. Los científicos de datos con experiencia pueden simplificar problemas complejos y saber que una respuesta aproximada hoy vale mucho más que una respuesta (presunta) mejor dentro de tres meses, especialmente cuando la respuesta “mejor” tiene que hacer más suposiciones que resultan ser una fuente de errores y sobreajuste. Publicamos nuestro trabajo en conferencias y confiamos en la retroalimentación de los pares para impulsar el sobre. Ver http://exp-platform.com

Estamos en un emocionante punto de transición. Es genial ver que Python se promociona internamente. Se invita a expertos de todo el mundo a dar consejos sobre las mejores prácticas en el uso y la creación de herramientas de aprendizaje automático. Tenemos un grupo de científicos de datos más diverso que muchos otros lugares, desde nuevos graduados recién salidos de las mejores escuelas, hasta veteranos con décadas de experiencia en laboratorios de investigación / industria de la salud y la banca. Los proyectos anteriores tienden a tener una sensación de I + D (lo que significa que se recomienda pensar fuera de la caja), aunque se enfatiza mucho la importancia del negocio.

Microsoft es un lugar con muchos recursos. Es interesante ver cómo estos recursos se pueden externalizar para ayudar al resto de nosotros a tener un mejor acceso a datos y soluciones basadas en datos.

Escuché que hay científicos de datos en MS haciendo el trabajo de probadores. Espero que alguien pueda aclarar eso.

More Interesting

Cómo pivotar mi carrera en ciencia de datos a los 38 años

¿Qué subcampos de aprendizaje automático son los más cercanos a aquellos con experiencia en mecánica de fluidos?

¿Cómo es trabajar en un equipo de ciencia de datos de detección de fraude?

¿Cuál es el mejor instituto en Mumbai para hacer ciencia de datos y certificación de big data?

¿Cuál es el significado de los derivados de datos en el contexto de big data?

¿Qué estadística simple o técnica de ciencia de datos utilizó para obtener una visión interesante cuando se enfrentó a grandes cantidades de datos?

¿Cuál es la diferencia entre datos, información y conocimiento?

¿Cuáles son los casos de uso típicos para diferentes algoritmos de aprendizaje automático? Por ejemplo, ¿en qué condiciones típicas uno preferiría usar uno sobre el otro sin haber probado la precisión del aprendizaje?

¿Cómo afectan la ciencia de datos, los grandes datos y el aprendizaje automático al campo de la ingeniería biomédica?

¿Dónde debo comenzar a aprender ML y minería de datos?

¿Un doctorado en análisis de datos ayuda a tener una carrera como científico de datos?

¿Cómo puedo convertirme en ingeniero de big data en Google?

¿Qué es big data, análisis de negocios, análisis de datos y cómo uno puede convertirse en analista de datos o científico de datos? ¿Hay algún curso a corto plazo?

¿Cuáles son algunas aplicaciones impresionantes de big data y machine learning?

¿Qué tipo de habilidades se requieren para probar las pruebas de rendimiento de aplicaciones de big data?