Además de los sospechosos habituales (Google, Facebook, Linkedin, etc.), ¿cómo determina la calidad de un equipo de ciencia de datos antes de unirse?

Antes de responder su pregunta directamente, permítanme ampliar un poco.

Tener excelentes científicos de datos como colegas ayudará a su crecimiento y resolver problemas interesantes lo mantendrá desafiado. Sin embargo, las buenas prácticas de ingeniería de datos, un almacén de datos bien establecido pero siempre cambiante, los procesos de producción sólidos son algunas de las cosas que también afectarán en gran medida su trabajo, a pesar de que usted o su equipo realmente no estén haciendo ninguna de esas cosas. Sus colegas científicos de datos pueden ser de la más alta calidad, pero si falta el elenco de soporte (ingenieros de datos, desarrolladores, arquitectos de big data, …) que hacen que la ciencia de datos sea exitosa hoy en día, se encontrará con mucha frustración. Entonces, haga preguntas sobre datos, lagos de datos, procesos de adquisición de datos, cómo funciona poner algo en producción …

Ahora, volviendo a tu pregunta. Sus mejores ideas vendrán del proceso de la entrevista. Aquí hay algunas cosas a considerar:

  • El mejor predictor individual de un equipo ds de menor calidad, según mi experiencia, es si tienen su pizarra. Sorprendentemente, encontrará empresas dispuestas a contratar científicos de datos sin molestarse en probar la codificación básica o las habilidades de resolución de problemas en una pizarra. “¿Ha utilizado SQL?” O “¿Puede enumerar 3 tipos de combinaciones de SQL”? De ninguna manera forman o constituyen una aproximación adecuada para darle a alguien un par de tablas, una pregunta y hacer que escriban código SQL en una pizarra.
  • Otro buen predictor es si le hacen preguntas “definitorias” frente a preguntas de resolución de problemas. Los entrevistadores tienden a hacer preguntas “definitorias” como “¿Puedes decirme qué es un ROC?” Cuando carecen de experiencia o voluntad para involucrarte en una discusión sobre un problema que podría abordarse utilizando esos mismos conceptos. Desea ver a alguien, tal vez debata sobre un problema de clasificación que resolvió con el aprendizaje automático, hacer preguntas sobre cómo midió el éxito e investigar más por qué eligió ROC sobre (digamos) la puntuación F1, y solo luego preguntar cómo explicaría un ROC a una audiencia técnica o no técnica.
  • Un tercer buen predictor de problemas es cuánta superposición existe entre las preguntas formuladas por diferentes entrevistadores. Una gran superposición indica que ni siquiera se molestaron en planificar cómo obtener una visión general completa del conjunto de habilidades del candidato, lo que a su vez significa que están tomando riesgos más altos de falsos positivos solo porque no se molestaron en planificar con anticipación. Eso es un grave error y una gran bandera roja.
  • Otro muy buen predictor es la proximidad entre lo que dicen que harás y el formato de la entrevista. Si afirman que una gran parte de su trabajo consistirá en construir modelos predictivos y presentar resultados al liderazgo, esperaría ser evaluado con preguntas de aprendizaje automático y preguntas dirigidas a comprender cómo comunico conceptos técnicos a audiencias no técnicas, tal vez un espectáculo y cuenta de un PowerPoint que preparaste. Pero si, en cambio, la mayor parte de la pregunta que recibe es sobre estructuras de datos e idiomas orientados a objetos, lo tomo como una bandera roja.
  • Otras cosas que son bastante obvias en nuestra era de Google es revisar los perfiles de sus entrevistadores en LinkedIn, cualquier video de YouTube que hayan publicado en una conferencia en la que hablaron y Glassdoor. Cuando la mayoría de sus entrevistadores tienen perfiles de LinkedIn muy ambiciosos (como “Soy un científico de datos que quiere mejorar mis habilidades de aprendizaje automático”), eso suele ser algo para validar frente a lo que el equipo y el papel que HR y el gerente de contratación le están vendiendo. son. Si le dicen que se unirá a un equipo experimentado, sin embargo, el perfil de LinkedIn de todos parece que son realmente analistas junior con títulos inflados, entonces eso es una señal de alerta. Por otro lado, si le dicen que lo están contratando para ser un recurso de alto nivel para ayudar a guiar a estas personas jóvenes, eso tiene mucho más sentido si ese es el tipo de oportunidad que está buscando.

Hay algunas cosas que vale la pena considerar. Puedo sugerir aprender sobre los antecedentes educativos y profesionales del equipo. En general, los equipos fuertes de ciencia de datos tendrán personas que han realizado un trabajo cuantitativo / modelado en profundidad en campos como estadística, optimización, economía, investigación de operaciones, física, matemáticas, informática, etc.

Además de los antecedentes educativos, también consideraría en qué tipo de productos de datos o proyectos de ciencia de datos han trabajado los miembros del equipo en el pasado. ¿Cuál fue el impacto de ese trabajo para las organizaciones de las que formaban parte? ¿Quién inició los proyectos y cuáles son las motivaciones para el trabajo? Los grandes equipos de datos tienen personas que toman mucha iniciativa y pueden articular claramente la motivación y el valor de su trabajo, y generar un impacto significativo para la organización.

También vale la pena considerar el nivel de entusiasmo de los miembros del equipo sobre su trabajo actual. ¿Cuáles son los retos? ¿Qué hace que el conjunto de problemas sea relevante y emocionante y cómo la resolución de estos problemas afectaría a la empresa / organización? En caso de que si está considerando unirse al equipo, piense en cuánto podría crecer profesionalmente trabajando en estos problemas con este equipo.

Finalmente, el éxito de un equipo de ciencia de datos está fuertemente influenciado por la cultura general de la compañía con respecto al aprovechamiento de datos para construir productos y tomar decisiones. Vale la pena investigar cuánto compromiso y apoyo hay desde el liderazgo de la compañía hacia la ciencia de datos. ¿Cómo se toman las decisiones y qué papel juega el equipo de ciencia de datos en el desarrollo de productos clave de la compañía?

Mike Loukides y Q Ethan McCallum intentaron preguntar y responder eso en O’Reilly Radar: Indicadores principales. Proporcioné algunas ideas adicionales en una respuesta: Indicadores principales: una respuesta.

Un pequeño descargo de responsabilidad: responderé esta pregunta como alguien que recibe una gran cantidad de ofertas de trabajo de vez en cuando. Además … perdona mi respuesta anónima.

Cuando leo descripciones de trabajo:

Si la descripción del trabajo menciona la producción de informes, particularmente en Excel, asumo inmediatamente que no es un puesto de ciencia de datos. También asumo de inmediato que el gerente de contratación no tiene idea de qué es la ciencia de datos.

Aunque podría ser injusto, si la descripción del trabajo describe un analista de datos puro o un trabajo de ingeniería de datos puro, asumiré que están buscando algo más y lo llaman científico de datos.

Confiaré en que el gerente de contratación y la compañía sepan de qué están hablando o al menos lo que desean lograr si en algún lugar de la descripción aparece algo similar a análisis predictivos y / o experimentos.

Cuando tengo una entrevista:

Ahora … rara vez estoy interesado en pasar a la etapa de entrevista, así que mi experiencia es muy limitada. Además, si hay una entrevista, es porque el proyecto es muy interesante y me siento cómodo con la descripción del trabajo.

Cuando llego a hacer preguntas, siempre pregunto: “Digamos que trabajaría allí. ¿Qué esperas que haga o entregue?” Para ser sincero, nunca obtuve una mala respuesta, pero lo que estoy buscando son fallas en la descripción del trabajo. Hasta el día de hoy, escuché cosas trabajando con el equipo de producción para usar datos en el producto para crear modelos predictivos. Todas buenas respuestas, incluso las más genéricas. Si escucho algo como construir tableros o ejecutar trabajos MapReduce por adelantado … ¡Estoy fuera!

Cuando recibo una tarea de prueba:

Si hay algo que nunca me falló fue observar la tarea de prueba. Al igual que con las entrevistas, solo ha habido un puñado de ellas, por lo que la experiencia es nuevamente limitada.

Sin embargo, he tenido entrevistas muy agradables con grandes compañías que me enviaron tareas de prueba horribles. Todas las tareas de prueba que recibí hasta ahora eran factibles en mi computadora portátil, sin necesidad de computación en la nube. Me impresionaría si eso hubiera sucedido. Simplemente nunca lo hice …

Cosas que busco en las tareas de prueba:

  • ¿Están haciendo preguntas comerciales viables? Tal vez soy injusto y simplemente están evaluando mi conjunto de habilidades, pero estaré muy decepcionado si las preguntas se parecen a un examen escolar. Por ejemplo, si me preguntan “¿Cuál es el LTV previsto del producto X?” ¡Estoy feliz! Si, por otro lado, me preguntan “¿Cuál es la desviación estándar del precio?” Estoy muy decepcionado.
  • ¿Mandaron un diccionario de datos con el conjunto de datos? ¿O al menos una descripción de las variables? Si no lo han hecho y las variables no se explican por sí mismas, sospecharé mucho.
  • ¿Cuál es la calidad del conjunto de datos? De nuevo, podría ser injusto aquí, pero no me gusta recibir un conjunto de datos con un formato incorrecto. Lo limpiaré, imputaré, etc. Pero también enviaré un correo electrónico preguntando si fue a propósito. Si lo fuera, estoy bien con eso. Si no fuera así, ¿qué tipo de equipo de datos hace eso?
  • ¿Qué tareas tengo que completar? ¿Es un análisis descriptivo? ¿Es un modelo de predicción? ¿Tengo que crear una interfaz para comunicarme? Todas estas cosas me ayudan a comprender qué tan avanzado es el equipo. No es que descarte el análisis descriptivo, sino que respeto mucho más las tareas de prueba más complejas.

¡Espero que esto ayude!.

En primer lugar, asegúrese de que no estén ejecutando solo un grupo de clústeres de Hadoop y que los “científicos de datos” sean los que ejecuten las consultas de Pig Latin. Si el foco está en las herramientas (Hadoop incluido) cuando lo entrevistan, el equipo puede ser un poco más que un departamento de BI. Dado que no existe una definición formal para un científico de datos, cualquiera puede afirmar que es uno siempre y cuando se ocupe de alguna forma de big data. Si el enfoque, por otro lado, está en un dominio específico y persiguen un conjunto de algoritmos, entonces están haciendo algo que puede resultarle interesante.

No, porque no he entrevistado. Esta decisión depende de su preferencia. Si es como una cita seria, solo debes saber quién es tu cita preferida y buscarla como una empresa y un servicio en particular. También conoce automáticamente el potencial de matrimonio futuro después de algunas citas y conversaciones serias, al igual que entrevistas detalladas y charlas con compañeros de trabajo y ver el ambiente de trabajo. Necesita ver algunas chicas buenas o aprender sobre las mejores rápidamente, así como necesita algunas entrevistas y citas para conocer los trabajos que valen la pena. En última instancia, pagará un precio por una novia y un cónyuge pobres con un crecimiento automático, solo por completar, al igual que un mal primer trabajo o un entorno laboral. Entonces encuentra las pocas buenas fechas y trabajos, y planifica el anillo y el trabajo de por vida hasta la jubilación.