Como científico de datos, ¿es mejor especializarse en la recopilación o el análisis de datos?

En la respuesta de Michael Hochster a “¿Qué es la ciencia de datos?” así como esta publicación de Medium en “Doing Data Science en Twitter”, se discute la idea de que haya dos tipos diferentes de científicos de datos. Los dos tipos son:

  1. Tipo A (“Análisis”), o científicos de datos que saben cómo buscar información “bastante estática” para obtener información. Usted recurriría a ellos, por ejemplo, para buscar un nuevo conjunto de datos, visualizarlo y ver dónde podría ir.
  2. Tipo B (“Edificio”, ¿quizás a lo que se refiere como “Colección?”) Son científicos de datos que tienen una sólida formación en ingeniería de software y crean sistemas de aprendizaje automático a nivel de producción. Necesitaría estos científicos de datos para construir un sistema de recomendación que sirva millones de recomendaciones todos los días.

En términos de su pregunta (¿en qué es mejor especializarse?), Diría que cualquiera que le atraiga más es mejor. ¿Qué clase de trabajo quieres? ¿Preferiría pasar todo el día lidiando con un conjunto de datos para obtener respuestas, o lidiando con un sistema para obtener un rendimiento de alta calidad?

Tenga en cuenta que, en muchos escenarios prácticos, ¡puede que tenga que hacer ambas cosas! La canalización de datos típica abarca desde la recopilación de datos hasta la limpieza, el almacenamiento, la extracción de características, el análisis / comprensión, la capacitación, etc., por lo que probablemente sea mejor una amplia familiaridad con ambos tipos.

Creo que la ciencia de datos tiene que ver más con el análisis de datos, pero la adquisición y limpieza de datos termina siendo la mayor parte del trabajo. Pero uno tiene que ser realmente bueno con los datos y su relevancia. Entonces, como núcleo, uno debe ser bueno con los datos y el análisis y debe tener habilidades adicionales para obtener los datos.