¿Qué porcentaje de tiempo pasa un analista de datos en diferentes tareas (recopilar datos, limpiar datos, analizar datos, etc.)?

Esto depende mucho del individuo y de las herramientas y recursos disponibles para ellos, junto con la tarea.

Cuando era un estudiante graduado, pasé el 10% del tiempo obteniendo mis datos, el 20% limpiándolos, el 40% escribiendo / depurando código para ajustar modelos, el 15% explorándolos y el 15% ejecutando experimentos.

Como ingeniero analítico de software, paso el 40% de mi tiempo recolectando datos, 15% analizándolos y ajustando modelos, y 45% produciendo / implementando mis modelos.

Se gasta mucho tiempo en cualquiera de las tareas anteriores en reuniones y discusiones con personas, y trabajar con datos es solo una parte del trabajo típico. No es raro tener un comienzo falso con algún conjunto de datos (tal vez se dé cuenta de que no tiene lo que necesita después de todo), y la verificación de la cordura es a menudo una parte del trabajo que consume mucho tiempo.

Depende mucho de la empresa y del proyecto y puede cambiar día tras día y semana tras semana.

La recopilación de datos es en gran medida una tarea de infraestructura. A menudo se realiza fuera del alcance del trabajo de un analista de datos.

La limpieza y el análisis de los datos pueden tomar más del 90% del tiempo de uno, suponiendo que el resultado esperado de su trabajo son principalmente informes legibles por humanos. Dentro de estos dos, el análisis de datos en general debería llevar más tiempo, pero podría haber días y semanas en los que el enfoque se centraría por completo en el lado de la limpieza de datos.

Sin embargo, en el mundo real, el resultado esperado de un científico de datos no sería solo informes legibles por humanos.

Pasarían tiempo:

  • Construyendo modelos para probar si sus ideas pueden ser producidas.
  • Proponiendo las métricas que pueden y deben usarse para seguir el progreso.
  • Hablar con los ingenieros de infraestructura de datos sobre qué tipos de consultas sobre los datos deberían optimizarse para el almacenamiento, en minutos y milisegundos.
  • Hablar con los ingenieros de producción sobre qué tipos de modelos vale la pena lanzar y cuánto trabajo requeriría cada uno de ellos.
  • Hablar con los ingenieros de confiabilidad del sitio sobre qué monitoreo y alertas del sitio en vivo sería mejor agregar o apoyar para mantener el sitio saludable.

Cada punto de viñeta de lo anterior puede tomar fácilmente más del 75% del tiempo de un analista de datos durante varios días o semanas seguidas.

Todos estarán de acuerdo en que los datos grandes son uno de los temas más comentados ahora. Cada negocio está tratando de desbloquear el verdadero valor de los datos que han reunido. La tarea principal del analista de datos es capturar o recopilar datos, y prepararlos en un formato tal que sea utilizado para generar la máxima productividad por cada empleado, en todos los niveles de la empresa.

Para lograr este dato, el analista debe dedicar más tiempo a identificar / capturar información valiosa (40% -45%) y el resto del tiempo a analizarla. Se pueden utilizar herramientas y servicios de nueva generación para reducir el tiempo que se consume en la captura, recopilación y limpieza de datos. Por lo tanto, se puede utilizar para formatear y analizar según diversas herramientas de análisis de datos.

Espero que te ayude.

¡Aclamaciones!

Bueno, la limpieza, la estandarización y la limpieza de los datos es la parte más importante del analizador de datos. Como sin esto, es difícil obtener información correcta … Creo que la limpieza de datos y la estandarización es para el uso que consume una mayor parte del analista de datos …

Aquí está mi blog que habla sobre lo mismo
Datos limpios y estandarizados: el requisito previo de Business Intelligence & Analytics por Srinivas Swamithan en las publicaciones

Bueno, esa cosa es completamente dinámica. La recopilación de datos en su mayoría toma del 10 al 15% del tiempo, ya que en su mayoría se planificó previamente, ya que el conjunto de datos debe estar allí al final del día o al final de la semana o cada quince días, etc. los datos que necesita para implementar las diferentes lógicas de limpieza y alineación de datos y luego analizarlos.

El resto del tiempo se utiliza para el control de calidad, el nuevo análisis y el formateo, si es necesario.