¿Es cierto que la mayoría de los científicos de datos tienen al menos un título de maestría o doctorado?

Como podemos ver en las otras respuestas, no hay una respuesta clara a la pregunta de OP. Mi hipótesis sobre por qué sucede esto es porque no estamos teniendo en cuenta el amplio espectro de responsabilidades de los científicos de datos.

Para responder a esta pregunta, debemos familiarizarnos con el panorama del rol del científico de datos. Puede echar un vistazo a las diferentes responsabilidades laborales de la respuesta de William Chen a ¿Cuáles son los diferentes tipos de científicos de datos? Por lo que he visto, los científicos de datos pueden vivir entre los extremos de las funciones de Ingeniería y Negocios. El nivel de grado preferido corresponde bien con el lugar donde va a ser el papel.

1) Por ejemplo, si el científico de datos va a ser responsable de construir y escalar algoritmos de aprendizaje automático para la infraestructura / herramientas de la compañía, un candidato a doctorado va a brillar aquí. El mayor diferenciador, para mí, es que este tipo de científico de datos no está limitado por paquetes estándar (paquetes scikit-learn, R) y puede crear / ajustar algoritmos existentes. Este rol exige experiencia central en aprendizaje automático que generalmente se aprende solo en doctorados CS / ML.

2) A continuación, si el científico de datos está trabajando en productos de datos, tomando decisiones de productos y elaborando modelos estadísticos para las partes interesadas del negocio, el título ahora se diversificará e incluirá Maestrías en CS / Estadísticas y Doctorado en campos cuantitativos. Por lo general, aquí, el uso de paquetes estándar / ajustes menores ayuda mucho a resolver la mayoría de los desafíos y el énfasis está en comprender qué herramientas / modelos usar para el desafío de modelado en cuestión. Además, los solteros realmente fuertes también comienzan a aparecer aquí en números. Estas personas tienden a especializarse en Matemáticas / CS y la mayoría han tomado cursos a nivel de posgrado. En Harvard, esto es especialmente cierto, ya que algunos de los estudiantes universitarios que he conocido han tomado cursos de Estadística que los candidatos de Doctorado en Estadística generalmente tomarían durante su segundo año.

Aquí, la preferencia por los títulos de posgrado puede explicarse por la madurez del análisis de datos tanto en la amplitud como en la profundidad de las estadísticas, el aprendizaje automático y el conocimiento de programación. Además, algo que a menudo se subestima es la capacidad de hacer / probar la pregunta / hipótesis correcta. Por lo general, estas habilidades tardan años en desarrollarse y se perfeccionan a través del trabajo con datos del mundo real, que generalmente son desordenados (necesitan una amplia discusión de datos), vienen en muchas formas diferentes (necesitan diferentes tipos de modelos, como regresión versus series de tiempo), y requieren iteraciones constantes de hipótesis. Estos conceptos se encuentran con mayor frecuencia en las clases de nivel de posgrado, proyectos y capacitación.

Sin embargo, la preferencia por los títulos de posgrado para los datos de entrada de los científicos disminuirá a través de una combinación de factores. Personalmente, veo dos tendencias principales. La primera tendencia es que a medida que los equipos de ciencia de datos crecen y el ecosistema madura, los equipos pueden contratar a más miembros junior y capacitarlos. La segunda tendencia son los cambios curriculares que exponen a los estudiantes universitarios antes a los conjuntos de datos y desafíos del mundo real. Esta tendencia ya está ocurriendo en Harvard (CS109 Data Science) y sé de estudiantes universitarios que se graduarán en los próximos años que habrían tenido pasantías en los equipos de ciencia de datos de las principales empresas de tecnología (Amazon, Facebook, etc.), comenzando en verano de segundo año. Esperaría que pudieran asegurar trabajos de científico de datos cuando se gradúen.

3) Por último, cuanto más nos acercamos al final del Negocio, más amplio es el espectro de grados que está presente. Aquí, las principales responsabilidades serán realizar tareas de análisis para tomar decisiones comerciales, pero con menos énfasis en el modelado estadístico / aprendizaje automático.

Además, también señalaría que hay roles de desarrollador de software, como el desarrollo de algoritmos de búsqueda que probablemente prefieran los doctorados. Entonces, al igual que la ciencia de datos, el grado requerido para un desarrollador de software específico depende de los requisitos del trabajo.

Sí, y no espero que cambie pronto.

Tenemos varias personas en el equipo de ciencia de datos en Knewton (compañía), y todos los que tienen responsabilidades de modelado tienen capacitación a nivel de posgrado.

¿Podría esto cambiar en el futuro? Posiblemente. Vale la pena señalar que también tenemos varios ingenieros increíbles en el equipo de ciencia de datos que trabajan en problemas relacionados con el modelado, pero que no lo requieren. Estas personas no son científicos de datos, pero trabajan en conjunto con científicos de datos en una variedad de problemas interesantes. Se podría adquirir experiencia de esta manera, luego pasar a un papel puro de “ciencia de datos”.

Pero dado el desequilibrio masivo en la contratación académica, espero que varios estudiantes de doctorado con capacitación cuantitativa cambien a roles de “ciencia de datos” en los próximos años. En otras palabras, un título de posgrado probablemente será un requisito para roles serios de ciencia de datos en el futuro previsible.

Creo que el objetivo en el proceso de contratación es conseguir personas que sean capaces de hacer una investigación profunda basada en datos. Esto significa conseguir personas que hayan realizado trabajos de investigación, es decir, doctorados y algunos titulados de maestría.