Esta es una gran pregunta: veo las calificaciones educativas como un proxy para las habilidades de señalización, y el pensamiento en torno a la capacitación en ciencia de datos probablemente pueda beneficiarse de un mayor énfasis en las habilidades en lugar de los debates sobre “¿Es el curso A” mejor “que el curso B?”
Recientemente di una charla sobre ‘qué hace que un MVP de Data Science (mínimo profesional viable)’, y mi respuesta fue que las 7 habilidades que necesitan son:
- Trabajar con bases de datos : las empresas de un tamaño decente al menos mantendrían sus datos en al menos algunos datos estructurados en una base de datos relacional.
- Probabilidad y estadísticas: el modelado de datos y la intuición estadística son imprescindibles si se trata de conjuntos de datos en bruto y granulares y se les pide que los usen para hacer recomendaciones o desarrollar productos.
- Exploración de datos y munging: esto rara vez se enseña formalmente, pero es una habilidad de utilidad clave, porque en realidad forma una gran parte del trabajo de ciencia de datos a nivel del suelo. Pocos conjuntos de datos vienen bien empaquetados, como en los tutoriales, a menos que se compren externamente, generalmente a un alto costo.
- Programación: … no es un “deber” en algunas compañías donde las herramientas empresariales son obligatorias debido a procesos o regulaciones establecidas. Pero, en general, he encontrado que el costo de algunas herramientas es prohibitivo y la falta de flexibilidad sofocante, por lo que tengo preferencia por los científicos de datos que pueden redactar su ingesta de datos, integración y canalización de modelado por su cuenta. Preferiblemente en herramientas de código abierto. Esta también es una maravillosa habilidad transferible.
- Traducción del programa: esta habilidad consiste en mantener una conversación de media hora con alguien sobre un problema comercial y traducirlo en una serie de proyectos discretos de ciencia de datos. Difícil de enseñar, pero crucial. Fuera de los casos de uso comunes en material de marketing de proveedores y conferencias de alto nivel, hay muchos casos de uso menos obvio de ciencia de datos en cualquier empresa y esta habilidad los desbloquea.
- Visualización de datos: las habilidades de visualización de datos son importantes porque hay formas de engañar a los lectores a través de visualizaciones deficientes. Y una de las formas de ganar credibilidad cuando se trabaja con nuevos internos o externos es simplemente mostrarles algunas visualizaciones geniales y personalizadas que no pueden hacer por sí mismas. Historia verdadera.
- Cuentacuentos: Cliché pero cierto: algunos equipos técnicos fuertes pierden el trabajo ante los equipos más débiles porque el equipo más débil simplemente se comunica mejor. Para las situaciones en las que el valor de un proyecto de ciencia de datos se basa en que el receptor del análisis tome una decisión, el valor de ese proyecto depende de si el equipo de ciencia de datos puede comunicarse de manera simple y convincente para que el receptor actúe. O el análisis se desperdicia.
Para terminar, hay algunas omisiones obvias: el aprendizaje automático no está presente, junto con algunas verticales como la optimización o la econometría. Esto es deliberado.
- He seguido el MOOC de ciencia de datos de la Universidad John Hopkins. ¿A dónde debería ir desde aquí para obtener más información sobre Data Sciences y convertirme en un Junior Data Scientist?
- Cómo convertir del modelo de datos conceptual (CDM) al modelo de datos lógico (LDM)
- ¿Tendré oportunidades de trabajo después de hacer un curso de ciencia de datos de Simplilearn?
- ¿Es realista construir algoritmos de aprendizaje automático complejos a gran escala en la producción? (
- ¿Cómo explicaría la 'falacia de la tasa base' a un niño de 9 años?
Los científicos de datos vienen en todas las formas y tamaños, y lo que estoy compartiendo son habilidades básicas, mientras que todas las omisiones son especializaciones . Sí, la mayoría de los científicos de datos vienen con, o adquieren, una especialización.
Pero todos los aspirantes a científicos de datos necesitan la base.