¿Cuál es la forma más efectiva de estructurar un equipo de ciencia de datos?

De 2012 a 2017, tuve el privilegio de construir la organización de datos y análisis en Coursera desde cero. Durante ese período de tiempo, experimentamos con una variedad de estructuras de equipo diferentes a medida que la empresa creció en tamaño y el negocio evolucionó (vea también esta publicación de blog o esta respuesta de Quora). Según mi experiencia, no existe una “forma correcta” de estructurar un equipo de ciencia de datos: lo que funcione mejor dependerá en gran medida del contexto y la etapa de crecimiento de la empresa.

Aunque no hay reglas estrictas, las preguntas centrales a tener en cuenta son generalmente:

  1. ¿Cómo se deben definir los roles de los científicos de datos?
  2. ¿Dónde deben informar los científicos de datos?
  3. ¿Dónde debería vivir la función de ciencia de datos?
  4. ¿Qué debe hacer una organización para configurar la ciencia de datos para el éxito?

Veamos estos uno por uno.

¿Cómo se deben definir los roles de los científicos de datos?

Tomando prestado de la taxonomía de Michael Hochster, generalmente hay dos tipos principales de científicos de datos:

  • Los científicos de datos de tipo A (“análisis”) se centran en dar sentido a los datos a través del análisis estadístico.
  • Los científicos de datos de tipo B (“construcción”) desarrollan modelos predictivos y algoritmos para potenciar los productos de datos.

Algunas compañías crean distinciones de títulos entre estos dos sabores diferentes de científicos de datos (por ejemplo, científico de decisiones / estadístico / analista cuantitativo versus científico de datos / científico de productos de datos / ingeniero de ML). Otras compañías intentan distinguir a los científicos de datos Tipo A de los roles de analistas de productos / negocios que a menudo se consideran menos técnicos. Aunque podría decirse que los títulos especializados ayudan a establecer expectativas, personalmente, no me queda claro que el esfuerzo necesario para aclarar estas distinciones valga la pena. En particular, para las startups en etapa temprana que necesitan generalistas, la creación de límites artificiales entre roles altamente superpuestos a menudo conduce a discusiones turbias sobre el territorio y el alcance que a menudo pueden ser improductivos.

Recomendación: para una startup, no pierda tiempo en distinguir títulos, pero reconozca que los científicos de datos individuales que contrata pueden tener todas las formas y tamaños (algunos pueden ser mejores en el análisis, otros en la construcción). Eventualmente, puede haber razones válidas para aclarar roles y responsabilidades, pero esto a menudo puede esperar hasta que una empresa sea más grande.

¿Dónde deben informar los científicos de datos?

En general, los equipos de ciencia de datos tienden a adoptar una estructura de informes descentralizada o centralizada.

  • Las organizaciones de ciencia de datos descentralizadas (o “integradas”) tienen científicos de datos que informan a diferentes funciones o unidades de negocio en toda la empresa. Esta organización surge comúnmente en organizaciones más grandes donde las iniciativas de ciencia de datos han surgido orgánicamente en múltiples partes del negocio.

    Las organizaciones descentralizadas a menudo son atractivas desde una perspectiva de responsabilidad, ya que proporcionan a las unidades de negocios una mayor flexibilidad para controlar sus propias necesidades de recursos. La descentralización promueve una fuerte alineación organizacional ya que los científicos de datos son miembros de primera clase de equipos de productos o negocios. Esto garantiza que los científicos de datos tendrán el contexto necesario para trabajar de manera efectiva con sus socios comerciales y la oportunidad de desarrollar relaciones personales significativas para obtener ideas e iniciativas.

    Sin embargo, la descentralización también crea una serie de desafíos. Para que una estructura descentralizada funcione bien, los equipos con científicos de datos necesitan líderes que sean competentes para administrar tanto ingenieros como científicos de datos. La movilidad de los científicos de datos está más restringida en una organización descentralizada, lo que a menudo conduce a silos de conocimiento, menos oportunidades de tutoría entre pares u oportunidades limitadas de crecimiento profesional. La descentralización también puede dificultar el cumplimiento de estándares uniformes de contratación de calidad, invertir en infraestructura analítica compartida o impulsar la adopción de prácticas analíticas estandarizadas.

  • Las organizaciones centralizadas de ciencia de datos tienen científicos de datos que informan a un solo jefe de ciencia de datos dentro de una empresa.

    Para las startups, los equipos centralizados tienden a ser más eficientes en cuanto a personal debido a la flexibilidad en la asignación de recursos. En estos equipos, los científicos de datos tienen más oportunidades de participar y colaborar con sus pares en una amplia gama de proyectos, por lo tanto, proporcionan un mejor crecimiento profesional y oportunidades de tutoría técnica. Estructuralmente, la centralización también simplifica la contratación y el reclutamiento, crea agencias para impulsar iniciativas analíticas en toda la empresa y reduce los silos de conocimiento.

    Por otro lado, los científicos de datos que operan en un equipo centralizado que está demasiado alejado de las prioridades de sus socios comerciales pueden carecer del contexto o la aceptación necesaria para ser efectivos. En algunos casos, esto puede conducir a una dinámica poco saludable donde la ciencia de datos es tratada como una función de soporte, respondiendo preguntas de los gerentes de producto en lugar de operar como verdaderos socios de pensamiento e impulsando conversaciones de manera proactiva desde una perspectiva informada por datos.

La mayoría de las empresas más pequeñas tienden a confiar en una estrategia híbrida centralizada / descentralizada que combina elementos de las dos estrategias anteriores. En general, los científicos de datos informan de manera centralizada, ya que reclutar y retener talentos es generalmente el principal obstáculo en la construcción de un equipo de ciencia de datos en la etapa inicial. Sin embargo, para garantizar que los científicos de datos estén capacitados para tener éxito, las nuevas empresas a menudo posicionarán a los científicos de datos para que trabajen estrechamente con las unidades de negocios, una práctica conocida como integración .

En pequeños equipos de ciencia de datos, la incrustación puede tener el efecto secundario de dejar a los científicos de datos demasiado aislados. En Coursera, abordamos este problema formando pequeños sub-equipos colaborativos (o “grupos”) de 2 a 4 científicos de datos que se asociarían con diferentes funciones / unidades de negocio, como se describe en esta publicación de blog. Se usó un enfoque similar para escalar la ciencia de datos en Airbnb.

Recomendación: para una startup que intenta establecer una cultura de datos sólida, los informes centralizados son probablemente la forma más fácil de comenzar. Utilice la incrustación para garantizar que los científicos de datos estén trabajando en proyectos que sean valiosos para el negocio, pero tenga cuidado de crear silos de conocimiento.

¿Dónde debería vivir la función de ciencia de datos?

En algunas organizaciones, la función de ciencia de datos es parte de la organización de ingeniería (por ejemplo, LinkedIn). En otras organizaciones, la ciencia de datos puede ser parte de la organización del producto (por ejemplo, Coursera) o puede existir como una función independiente que informa directamente al CEO (por ejemplo, StitchFix). A veces, los científicos de datos de Tipo A y Tipo B pueden informar a diferentes grupos (como en Instacart).

No existe el mejor lugar para poner la ciencia de datos, y es bastante común que las estructuras de informes de ciencia de datos evolucionen con el tiempo, incluso dentro de la misma compañía. La mejor ubicación depende de factores como:

  • ¿Qué vías de comunicación hay para que los científicos de datos influyan en las decisiones de producto?
  • ¿En qué medida son necesarios los científicos de datos involucrados en la ingeniería de producción para desarrollar sistemas de aprendizaje automático?
  • ¿Qué ejecutivo de la empresa podrá abogar más eficazmente por la ciencia de datos?
  • ¿En qué medida la ciencia de datos es una competencia central para la organización en su conjunto?

Recomendación: Independientemente de dónde viva la ciencia de datos, priorice el fomento de colaboraciones interfuncionales fuertes, ya que los científicos de datos casi siempre necesitarán trabajar estrechamente con gerentes de productos, diseñadores, especialistas en marketing, ingenieros y otros líderes empresariales y de productos en toda la empresa.

¿Qué necesitan los científicos de datos del resto de la empresa?

Gran parte del éxito de un equipo de ciencia de datos tiene mucho que ver con la estructura y el funcionamiento del equipo. Pero gran parte de esto también tiene que ver con la forma en que otros equipos de la empresa interactúan con los científicos de datos. En general, he encontrado tres cosas importantes:

  • Soporte de ingeniería de infraestructura de datos. Para que los científicos de datos sean eficaces, las herramientas clave (p. Ej., Canalizaciones de datos, instrumentación y seguimiento, marcos de prueba A / B y entornos de análisis) son fundamentales. Por lo tanto, a menudo tiene sentido que las empresas prioricen la contratación de ingenieros de infraestructura de datos antes de contratar a su primer científico de datos, y es vital que los equipos de ingeniería de infraestructura de datos y ciencia de datos trabajen en estrecha colaboración.
  • Gerentes de producto e ingeniería que entienden las complejidades de construir productos de datos . Las consideraciones involucradas en la creación de productos de datos son muy diferentes de los productos normales: el código de trabajo no es suficiente para garantizar que un producto de datos brinde la experiencia adecuada para el cliente. Los problemas de calidad de los datos son insidiosos y la depuración de modelos predictivos complejos puede ser un verdadero desafío. Los plazos tampoco funcionan de la misma manera; A diferencia de la mayoría de los productos de software donde el alcance de corte puede ser una estrategia aceptable para entregar un proyecto a tiempo, los recortes a menudo no funcionan cuando se trata de productos de datos. Tener una buena intuición sobre las capacidades y limitaciones del aprendizaje automático es fundamental al priorizar las funciones. Como resultado, tener gerentes de productos e ingeniería con conocimientos técnicos relevantes puede ayudar a que las cosas salgan mucho mejor. En muchos casos, los propios científicos de datos son a menudo los más calificados para asumir este tipo de roles.
  • Fuerte aceptación ejecutiva. Gran parte de la influencia de un equipo de ciencia de datos depende de la voluntad del equipo ejecutivo (y del CEO, en particular) de responsabilizar a las personas por fomentar una cultura sólida basada en datos. Esto es especialmente cierto para los científicos de datos de Tipo A, cuyo trabajo a menudo depende en gran medida de la voluntad de los gerentes de productos y líderes empresariales para ser receptivos a escuchar los datos a través de HiPPO (la opinión de la persona mejor pagada). Además, construir y mantener la infraestructura necesaria para desbloquear datos como una ventaja competitiva requiere mucho tiempo y recursos, por lo que los ejecutivos que desean una cultura de datos sólida deben estar preparados para realizar la inversión adecuada.

Recomendación: Al crear un equipo de ciencia de datos, asegúrese de que el equipo esté configurado para tener éxito considerando el entorno en el que opera el equipo.

Finalmente, terminaré diciendo que las recomendaciones anteriores están lejos de ser absolutas, pero reflejan principalmente mi propia experiencia en Coursera, a través de un proceso de prueba y error en los últimos cinco años. Algunos de los recursos en línea más útiles que dieron forma a mi pensamiento fueron:

  • Creación de una organización basada en análisis: un documento técnico de Accenture que proporciona una descripción matizada de diferentes estilos de organizaciones de análisis.
  • Creación de equipos de ciencia de datos: un libro electrónico de DJ Patil (quien acuñó el término “científico de datos”) que describe los elementos clave de la creación de equipos que pueden ofrecer excelentes productos de datos.
  • Analizando los analizadores: un libro electrónico de Harlan Harris, Sean Murphy y Mark Vaisman que adopta un enfoque basado en datos para comprender los diversos arquetipos de datos científicos encontrados en la naturaleza.

Durante este tiempo, también tuve la suerte de recurrir a los generosos consejos de líderes de ciencia de datos increíblemente útiles en otras compañías, por lo que si puedo ser de ayuda, no dude en comunicarse.

Creo que depende de la etapa de la empresa. Al comienzo del ciclo de vida de una empresa, la ciencia de datos probablemente no sea su competencia principal. Especialmente si eres un sitio de comercio electrónico.

No tiene suficientes datos para hacer nada interesante, y los problemas más importantes que necesita resolver (conseguir usuarios, entregarles valor, retenerlos) probablemente tengan relativamente poco que ver con la ciencia de datos. La ciencia de datos realmente muestra su valor si (a) la tecnología central de su empresa se basa en el rendimiento de algún elemento de un algoritmo de aprendizaje automático (por ejemplo, predicción de ventas) o (b) cuando su empresa es lo suficientemente grande como para tener los datos y la escala donde la diferencia entre un buen algoritmo y un gran algoritmo realmente tiene un impacto significativo en su balance final.

Por lo tanto, en las primeras etapas de una empresa, estructuraría el equipo de ciencia de datos para enfocarse en empujar el código y hacer un análisis descriptivo más básico (p. Ej., Análisis de cohortes, optimización del embudo de registro, pruebas A / B) en el más apalancado puntos de la organización, en lugar de centrarse en gran medida en el modelo predictivo. El equipo de ciencia de datos sería su propio equipo que interactúa con el ingeniero / producto / marketing.

Más adelante en el ciclo de vida de una empresa, cuando la ciencia de datos se convierte en un multiplicador de fuerza en nuevas iniciativas, podría estructurar el equipo de ciencia de datos de modo que fuera (a) la mitad de I + D / ingeniería de producto (por ejemplo, ideas de cielo azul sobre cómo usar los datos para mejorar las operaciones de la compañía) y (b) la mitad de BI que se centró en la realización de análisis post-hoc de estrategias pasadas y generó análisis para que el liderazgo reflexione sobre cómo determinar qué dirección estratégica tomar.

Haciendo ciencia de datos correctamente: sus preguntas más comunes respondidas

Bien respondido aquí, escrito por líderes de datos muy experimentados (Instacart y LinkedIn).