Esta es una pregunta interesante para reflexionar, ya que no creo que el papel del científico de datos realmente se haya establecido todavía. Hemos estado haciendo análisis, minería de datos, búsqueda de patrones, durante décadas. Hemos estado haciendo investigación operativa (lo que considero el verdadero abuelo de la ciencia de datos) para la toma de decisiones basada en datos reales desde la Segunda Guerra Mundial.
Conocí a brillantes programadores de bajo nivel que aplicaron herramientas de ciencia de datos a microdominios, conocí a ingenieros de Big Data Hadoop que, a pesar de sus mejores esfuerzos, simplemente extraen el código ETL.
La responsabilidad de los científicos de datos, para mí, es muy amplia:
- En el aprendizaje automático, ¿por qué utilizamos un tercio de los datos para las pruebas y dos tercios para la capacitación? ¿Es sentido común o hay una razón científica?
- ¿Cuál es la diferencia entre ingeniería de datos y minería de datos?
- Cómo diseñar un currículo para enseñarme estadísticas
- Para la validación cruzada K-fold, ¿qué k se debe seleccionar?
- ¿Qué tan efectivos son los cursos en línea para aprender ciencia de datos?
- Evaluar genuinamente el posible valor de los datos de una organización.
- Encuentre limitaciones en los datos y busque formas de andamiaje (cambiando los procesos de recopilación de datos, comprando datos externos, etc.)
- Proporcionar un marco experimental riguroso para que las decisiones “basadas en datos” estén realmente basadas en datos y no en datos engañados.
- Comunicación sobre ayer, hoy y mañana con y sobre datos.
- Imponer rigor ético en el uso que hace una organización de sus datos.
A partir de ahí, sin embargo, puede encontrar científicos de datos con tareas muy específicas. Puede ser un científico de datos cuya vida entera depende del análisis del flujo de clics y de obtener una mejora de .1% en las tasas de clics. Puede ser un científico de datos que intente descubrir la mejor manera de enrutar pedidos a socios de cumplimiento. Puede ser un científico de datos que solo visualice datos para que los tomadores de decisiones puedan tomar buenas decisiones.
Una de las principales distinciones de las que habla la gente es: “¿es usted un científico de datos que proporciona información para las personas o para las máquinas”? Si bien estoy de acuerdo en que esta es una distinción importante, creo que ambos cumplirán las 4 responsabilidades enumeradas anteriormente.