¿Qué tan grande debe ser mi equipo de ciencia de datos?

Coursera tiene una clase excelente en esto llamada Construir un equipo de ciencia de datos . Está dirigido por Jeff Leak y otros de la Universidad John Hopkins. Esbozan 3 roles principales (gran parte de esto se extrae literalmente):

  • Científicos de datos: diseñan experimentos, extraen y limpian datos, analizan datos y comunican resultados
  • Ingenieros de datos: construyan infraestructura de datos, administren el almacenamiento y uso de datos, implementen herramientas de producción
  • Data Science Manager: crea un equipo de datos, establece objetivos y prioridades, gestiona el proceso de ciencia de datos, interactúa con otros grupos

En mi propia experiencia (Ernst & Young, Google, YouTube), los equipos de ciencia de datos pueden ser tan pequeños como 5 o más de 100. La ciencia de datos (DS) todavía es un campo muy nuevo y las universidades apenas están comenzando a formalizar y anunciar concentraciones a su alrededor. Por lo tanto, no creo que encuentre muchas “mejores prácticas comunes”. La mayoría lo está inventando a medida que avanza.

La cita de Dan Ariely se puede aplicar a DS:

“Big data es como el sexo adolescente: todos hablan de eso, nadie sabe realmente cómo hacerlo, todos piensan que los demás lo están haciendo, por lo que todos afirman que lo están haciendo …”

Aquí hay algunas observaciones que hice después de 12 años en el campo. Tenga en cuenta que estas son mis opiniones y solo de trabajar con grandes empresas (sin perspectiva de inicio). Si no está de acuerdo con un punto o sabe algo que no sé, ¡infórmenos!

  • DS intenta combinar (al menos) 3 campos: estadística (SQL, R, Matlab, Python), informática (C ++, Java) y estrategia empresarial (MBA, consultoría, liderazgo). Algunos agregan un cuarto: intuición de datos. Todavía tengo que conocer a alguien que sea fuerte en todo esto. Por lo tanto, DS es un deporte de equipo.
  • Los equipos de DS suelen proporcionar 4 tipos de entregables: 1. métricas claramente definidas (por ejemplo, ¿qué debemos medir?), 2. tuberías de datos e infraestructura de soporte que convierten sus registros en tablas estructuradas de manera óptima para el análisis, 3. informes y paneles de estas métricas ( por ejemplo, autoservicio) y 4. investigación de preguntas específicas formuladas por ejecutivos, productos, ingeniería, ventas, etc.
  • Si su empresa nunca ha creado un equipo de DS, probablemente pasará los primeros 1-3 años solo construyendo 1, 2 y 3 arriba (métricas, tuberías e informes). Esto es terriblemente frustrante para las empresas tecnológicas y startups que compiten en velocidad (¿todas ellas?). He visto equipos cortar esquinas para acelerar esto, que es como construir un edificio alto sobre una base débil. Parece bonito al principio, hasta que comienza a caerse (métricas inconsistentes, montones de informes que nadie lee, lecturas malinterpretadas, acumulación rápida de deuda técnica).
  • A la luz de esto, ayuda a dar a un nuevo equipo de DS una combinación de objetivos a medio plazo y claras victorias rápidas desde el primer día. Un objetivo a medio plazo (1–2 trimestres) podría ser definir 3 métricas de usuario, construir las canalizaciones de soporte e informes de fin de mes para cada una. Una ganancia rápida podría ser configurar una sincronización semanal entre DS y la administración, donde las métricas que tienen se consumen y discuten. Esta es una gran rutina para que la gerencia piense en qué preguntas quieren respuestas y para que DS comprenda cómo piensa la gerencia.
  • DS puede informar la estrategia comercial pero no puede reemplazarla. Por lo tanto, es importante hacer preguntas que los datos disponibles existentes puedan informar razonablemente. Bueno (para DS): ¿Qué segmento de nuestra base de usuarios está creciendo más rápido? En que paises Malo: estamos pensando en crear una nueva aplicación que se centre exclusivamente en el segmento de usuario X. ¿Deberíamos hacerlo o deberíamos mantener toda la funcionalidad dentro de nuestra aplicación principal?
  • Las organizaciones más grandes tienden a separar la función de ingeniería de datos de la ciencia de datos. Del mismo modo, aquellos que persiguen seriamente la ciencia de datos a través de la academia (por ejemplo, candidatos a doctorado) tienden a centrarse en uno u otro (construir sistemas de datos o interpretar el resultado). Personalmente, creo que esto funciona mejor si contratas a los mejores talentos (que están tratando de dominar sus habilidades y avanzar más allá de la vanguardia).
  • Organizacionalmente, los equipos de DS tienden a informar directamente a la alta gerencia. Esto es importante si está buscando ideas objetivas e imparciales que se centren en las iniciativas comerciales sobre los intereses / puntos de vista políticos de un departamento determinado.
  • Identificar y contratar a los mejores científicos de datos sigue siendo increíblemente difícil. DS paga bien pero las calificaciones están poco definidas. Como resultado, hay muchos candidatos no calificados que intentan pasar como científicos de datos. Para ser justos, no hay una barra de calidad establecida *. Por ejemplo, cuando se le dan dos currículums, cada uno indicando conocimiento de SQL, R y modelado predictivo, es difícil inferir qué candidato tiene la curiosidad y la intuición para obtener información de los datos y cuál puede simplemente ejecutar una consulta SQL para entregarle el resultado. También es difícil confirmar esto en una entrevista de 1 hora.
  • Finalmente, mencionaste que ‘hemos desarrollado una aplicación’. Si ‘nosotros’ es una startup pequeña (<100 personas), no recomendaría crear un equipo de DS. Hay muchas aplicaciones de informes estándar y consultorías de terceros que pueden manejar casos de uso básicos. Dado que DS sigue siendo un campo tan nuevo, solo lo recomendaría si honestamente cree que es fundamental para su viabilidad comercial a largo plazo.

* No hay un programa / universidad de DS superior para graduarse … todavía. Hay un puñado de excelentes pioneros, pero creo que es demasiado pronto para decir cuáles son los mejores.

Depende de qué tan grande sea el equipo hoy. Si recién está comenzando el viaje, le recomendaría tener un equipo de dos personas que entren como su fuerza avanzada, como si enviara comandos a la batalla. Permítales demostrar que el análisis de datos puede agregar un valor real al negocio y luego hacer crecer al equipo en función de su éxito.