¿Cuál es el flujo de trabajo habitual de un científico de datos antes de comenzar a analizar un conjunto de datos?

Gracias por el A2A.

Estoy tratando de entender cómo estandarizar el proceso de análisis, ¡así que usaré esta pregunta para escribir cosas! 🙂 Me estás ayudando tanto como yo estoy tratando de ayudarte, ¿genial? 😀

Antes que nada, necesitamos una pregunta para responder. Eso es lo del preanálisis. Si no tenemos una pregunta, realmente no podemos hacer ningún análisis. Mi modelo mental, que con suerte se traduce en uno estándar, se llama ACEMO:

A – Agregar datos al proyecto

Suponiendo que haya una pregunta, puedo comenzar a pensar en cómo responderla. Aquí es donde defino el conjunto de datos que necesito. Muy a menudo, el conjunto de datos se compone de varias fuentes de datos. La A de ACEMIR significa que consulto esas fuentes de datos y agrego los conjuntos de datos resultantes a mi proyecto. Considero que estos conjuntos de datos son datos sin procesar en el contexto del proyecto.

C – Limpiar datos sin procesar y crear datos limpios

Ahora tengo un montón de datos en bruto. Necesito limpiarlo y crear el conjunto de datos limpio final para el proyecto. Este paso puede ser innecesario si solo hay una fuente de datos, pero como dije, a menudo hay varias fuentes de datos y necesito unir cosas, verificar valores faltantes, etc.

E – Análisis de datos exploratorios

Con mi nuevo conjunto de datos hago dos cosas:

  1. Primero conozca el conjunto de datos dentro y fuera. Para ser sincero, dada la naturaleza de los datos con los que trabajo, sé cómo se ve cada variable la mayor parte del tiempo, así que me concentro principalmente en lo que es nuevo, a menudo en forma de valores atípicos raros.
  2. Segundo, exploro las relaciones entre variables. Este es el punto donde comienzo a modelar mi respuesta. Entenderé bien los modelos que intentaré más adelante, si es necesario extraer características y si todo está en su lugar con respecto a los supuestos que tienen los modelos.

M – Modelo

El modelado es exactamente eso: crear y medir modelos. Aquí es donde responderé la pregunta. Tenga en cuenta que esto puede no implicar un modelo de datos. El modelo es una generalización.

O – Salida

El resultado puede ser muchas cosas, pero en pocas palabras mi objetivo es crear un resultado que pueda ser interpretado por quien sea o lo que sea que lo vaya a usar. Esto puede ser una persona o un sistema y diferentes personas y diferentes sistemas necesitan diferentes resultados.

El punto es que una salida es específica.

En cuanto a sus preguntas:

¿El flujo de trabajo difiere según el problema?

En teoría no. Deberíamos poder seguir básicamente los mismos pasos. En la práctica, sí. Podemos (y debemos) volver a otros pasos tantas veces como sea necesario. Otra cosa es que un proyecto para crear un producto de datos es diferente de un proyecto para informar un análisis.

Es por eso que he estado trabajando en este flujo de trabajo, para generalizar el trabajo de ciencia de datos. Un problema que no he podido comprender es la creación de productos de datos interactivos. Por ejemplo, una página web con algún componente de análisis. Todo el proyecto es básicamente el resultado. Eso es algo en lo que tendré que trabajar.

¿Dónde obtiene un científico de datos conjuntos de datos? ¿Cómo los buscan?

Por lo general, los datos existen en algún lugar de la organización. Todos los miembros de nuestros equipos conocen las bases de datos y cómo consultarlas, incluso las grandes de datos grandes.

Si los datos no están en la organización, necesitamos saber dónde existen y buscarlos. APIs es el método habitual.

¿Qué miran los científicos de datos antes de comenzar a trabajar con un conjunto de datos?
¿Cómo saben que el conjunto de datos es relevante y confiable?

Consulte la parte Análisis de datos exploratorios.

¿Cuál es la parte más tediosa / dolorosa de este proceso?

Los primeros dos pasos (A y C) pueden ser un dolor. Consultas que toman demasiado tiempo, conjuntos de datos que están en mal estado porque las API se construyeron mal, etc.

Espero que esto ayude y gracias porque mientras escribí esto, ¡en realidad mejoré el flujo de trabajo! 🙂

El primer paso es evaluar y caracterizar los conjuntos de datos disponibles para usted.

El primer paso de la evaluación es procesar los datos en filas con algún esquema suelto. Esto se llama munging. Una vez que el (los) conjunto (s) de datos son tablas en alguna herramienta (Pandas, R, Pig, etc.), puede describirlo al consultarlo, muestrearlo, calcular cuántas filas, qué tan llenas están, qué campos, qué tipos de campos son, qué tan completos están estos campos y qué limpieza adicional se necesita para analizar estos datos. Es posible que deba consultar a expertos o fuentes de dominio para comprender el significado de los datos.

Luego, se sumerge o continúa buscando conjuntos de datos adicionales si no puede ejecutar las primeras consultas básicas que se le ocurren. Después de esto, comienza el análisis.