¿Cuántos científicos de datos (por cualquier nombre) hay hoy?

La primera respuesta de William Chen mencionó que 162K científicos de datos fueron devueltos por una búsqueda de palabras clave en LinkedIn, pero ese enfoque le da muchos falsos positivos. Según los datos de LinkedIn de hace unos meses, la cantidad de perfiles de científicos de datos que coincidían por título era mucho, mucho menor.

Utilizando la interfaz de búsqueda pública de LinkedIn, con el título del trabajo entre comillas, veo a 12.170 miembros con la frase “científico de datos” en cualquier parte de su perfil. Utilizando la faceta de búsqueda avanzada para mirar solo los perfiles con un título actual o pasado que contiene la frase “científico de datos”, veo 6.896 resultados. Hacer una búsqueda simple de palabras clave devolverá a muchos miembros que mencionan las palabras “datos” o “científico” en cualquier parte de su perfil, pero la mayoría de esas personas no tienen nada que ver con la ciencia de datos.

Como Gregory Piatetsky mencionó, hay muchos científicos de datos con el título de ingeniero de software, científico de investigación, etc., por lo que la cantidad de personas que coinciden en base a habilidades y educación, independientemente del título oficial del trabajo, probablemente esté en el rango de 150K-250K y la mayoría de ellos estarán en LinkedIn en este momento. Creo que una estimación de 1M es un poco alta. Hay muchos aspirantes a científicos de datos que se inscriben en Kaggle u otros grupos, pero probablemente tenga sentido limitar el recuento a las personas que realmente lo hacen como su trabajo diario.

Muchas personas que hacen el trabajo de “Data Scientist” tienen títulos diferentes.
Kaggle, una plataforma de competencia muy popular para los científicos de datos, tiene más de 100,000 usuarios registrados, y supongo que del 10 al 50% de los “científicos de datos” se han registrado allí, por lo que entre 200,000 y 1,000,000 en todo el mundo.

El último informe publicado por RJMetrics pone el número entre 11.400 y 19.400: Página en rjmetrics.com

En lugar de perderse en el debate “¿Qué es un científico de datos?”, Como muchos lo han hecho antes, decidimos dejar que los científicos de datos hablen por sí mismos. Ciertamente podríamos haber identificado científicos de datos utilizando un algoritmo complejo de aprendizaje automático, empleando habilidades, educación, palabras clave u otras características de identificación, pero la mejor solución es a menudo la más simple. Similar a cómo LinkedIn simplemente pregunta a sus usuarios, “¿Joe sabe acerca de Python?”, Preguntamos: “¿Joe dice que es un científico de datos?” Específicamente, miramos a las personas que realmente dicen “científico de datos” en su título o en su Título profesional.

Una consecuencia directa de nuestro enfoque es que no necesariamente captura a todos los que hacen ciencia de datos. Hoy, muchas compañías emplean analistas de datos, analistas de inteligencia de negocios, analistas cuantitativos o simplemente científicos que muy bien pueden estar haciendo el mismo trabajo que alguien con un título de científico de datos en otra compañía. Sin embargo, muchas empresas también emplean analistas que hacen muy poco con los datos más allá de trabajar con ellos en Excel. Intencionalmente evitamos incluir esta gran diversidad de títulos para no contaminar nuestra muestra, y en su lugar consideramos una lista muy pequeña de permutaciones alrededor de la frase “científico de datos”.

Además de buscar científicos de datos en inglés, tradujimos títulos de ciencia de datos a otros ocho idiomas en LinkedIn: francés, español, italiano, portugués, alemán, sueco, holandés y turco. Si tiene curiosidad por ver con precisión cómo identificamos a alguien como científico de datos, no dude en echar un vistazo a la consulta final que realizamos en nuestro clúster Redshift.

En general, encontramos solo 11.400 científicos de datos en todo el mundo.