¿Cuáles son las responsabilidades de un científico de datos en diferentes empresas?

Esta es una pregunta interesante para reflexionar, ya que no creo que el papel del científico de datos realmente se haya establecido todavía. Hemos estado haciendo análisis, minería de datos, búsqueda de patrones, durante décadas. Hemos estado haciendo investigación operativa (lo que considero el verdadero abuelo de la ciencia de datos) para la toma de decisiones basada en datos reales desde la Segunda Guerra Mundial.

Conocí a brillantes programadores de bajo nivel que aplicaron herramientas de ciencia de datos a microdominios, conocí a ingenieros de Big Data Hadoop que, a pesar de sus mejores esfuerzos, simplemente extraen el código ETL.

La responsabilidad de los científicos de datos, para mí, es muy amplia:

  1. Evaluar genuinamente el posible valor de los datos de una organización.
  2. Encuentre limitaciones en los datos y busque formas de andamiaje (cambiando los procesos de recopilación de datos, comprando datos externos, etc.)
  3. Proporcionar un marco experimental riguroso para que las decisiones “basadas en datos” estén realmente basadas en datos y no en datos engañados.
  4. Comunicación sobre ayer, hoy y mañana con y sobre datos.
  5. Imponer rigor ético en el uso que hace una organización de sus datos.

A partir de ahí, sin embargo, puede encontrar científicos de datos con tareas muy específicas. Puede ser un científico de datos cuya vida entera depende del análisis del flujo de clics y de obtener una mejora de .1% en las tasas de clics. Puede ser un científico de datos que intente descubrir la mejor manera de enrutar pedidos a socios de cumplimiento. Puede ser un científico de datos que solo visualice datos para que los tomadores de decisiones puedan tomar buenas decisiones.

Una de las principales distinciones de las que habla la gente es: “¿es usted un científico de datos que proporciona información para las personas o para las máquinas”? Si bien estoy de acuerdo en que esta es una distinción importante, creo que ambos cumplirán las 4 responsabilidades enumeradas anteriormente.

Como Data Scientist, trabajando en una variedad de proyectos y se espera que sea flexible con mis responsabilidades, no tengo responsabilidades formales, pero en general puedo enumerarlas como:

Predicción: Generalmente predice si un usuario abandonará el servicio, tomará un paquete / paquete particular, etc.

Motor de recomendación: se continúa trabajando para desarrollar y mejorar los motores de recomendación para páginas WAP, portales web o simplemente recomendar un paquete u oferta a un suscriptor

Análisis de supervivencia: se necesita principalmente para calcular el valor de vida del cliente, un criterio importante para decidir el valor de un cliente.

Segmentación: para campañas de marketing dirigidas, los suscriptores se segmentan utilizando técnicas de aprendizaje no supervisadas.

Monetización: Muchos clientes vienen con un “Tengo tantos datos pero no sé qué hacer con ellos”. Me encantan este tipo de proyectos debido a la licencia para hacer lo que quiera con los datos.

Procesamiento del lenguaje natural : principalmente para presentar ideas sobre el contenido de las redes sociales: análisis de sentimientos, N-gramos, etc.

Varios: y, por supuesto, muchos otros proyectos surgen cuando tiene que desarrollar algoritmos dependiendo de los requisitos del negocio, por ejemplo, para una distribución optimizada para recompensas de un programa de fidelización.

Como científico de datos, manejo datos de diferentes dominios mientras estoy en el lado de la consultoría. Obtenemos datos de diferentes clientes (dominios de lectura) y utilizamos análisis y encontramos información útil para los clientes. En la mayoría de los casos, el cliente no es consciente de lo que pueden hacer los análisis y espera que podamos encontrar algo útil para él. Entonces, comprender diferentes dominios e intentar generar algo útil para ese dominio es muy importante en mi caso. A veces, un modelo de caja negra con alta precisión es suficiente y, a veces, aunque la precisión es menor, se requiere un modelo que pueda explicarse fácilmente.

Para KnolSeed ( http://Knolseed.com ), nuestra solución de análisis de comercio electrónico, los científicos de datos son responsables de desarrollar continuamente:
1) los algoritmos de análisis predictivo de correo electrónico que predicen qué clientes tienen más probabilidades de responder y no responder a campañas específicas
2) el motor de recomendaciones que maneja las características de personalización