Aquí hay una lista de verificación de sugerencias prácticas que aprendí principalmente por las malas, y hago todo lo posible para profundizar en los analistas de mi equipo cuando trabajamos con conjuntos de datos desconocidos:
Comprender el proceso de generación de datos. Se le dan datos de la orden de compra. Si lo tomara al pie de la letra sin comprender que la mitad de los datos se generaba automáticamente y la otra mitad se ingresaba manualmente, con diferentes plazos de entrega, eso le habría costado cientos de miles en pronósticos de inventario incorrectos.
La cordura verifica tus datos. Se le proporciona un conjunto de datos de transacciones financieras para analizar las tendencias. Si se toma el tiempo para hacer un análisis exploratorio de datos y se asegura de que los datos tengan sentido, descubre millones de dólares en transacciones dentro de 50 años . Obviamente, fue un error o una peculiaridad del sistema que habría estropeado cualquier cálculo que hubiera hecho.
- ¿Hay algún científico de datos en la Antártida?
- ¿Debo dominar Java o Python para una carrera de ingeniería de datos?
- ¿DataCamp me ayudará a competir en las competencias de Kaggle? Soy un principiante.
- ¿Cuáles son los logros de Yahoo en el campo de Big Data?
- Cómo recuperar la ecuación de predicción de R
Verifique si hay definiciones cambiantes. Si observa los datos del censo o los conjuntos de datos de “datos abiertos”, existe el peligro de que la definición (por ejemplo, lo que constituye un delito penal “grave”) cambie a la mitad del tiempo.
Piensa cuidadosamente sobre el sesgo de la muestra. En un estudio gubernamental sobre transporte público se realizó en una estación de tren. No hay forma que sea representativa de lo que piensa la población en general. (Si alguien odiara el transporte público o sintiera que no satisface sus necesidades, no estaría en el
estación de tren)
Piensa en el contexto de los datos . En los datos de nómina, tratar de comparar paquetes entre países puede ser complicado. Además de los tipos de cambio cambiantes, los diferentes países tienen diferentes puntos de vista sobre el salario fijo frente a las comisiones, el salario mínimo, los bonos, el ahorro regulado, etc.
Comprender las estadísticas . Habrá casos en los que se acerquen datos comparables, y los consumidores de sus datos tendrán hambre de ‘señal’ que los influya de una manera u otra. Es su responsabilidad señalar algunos hallazgos que ahora son estadísticamente significativos. También es su responsabilidad elegir sus métricas con cuidado: el “promedio” simplemente falla en muchas situaciones.
Hable con los DBA para comprender las peculiaridades específicas del sistema. Los conjuntos de datos de la vida real están plagados de comportamientos extraños impulsados por la forma en que los diferentes sistemas manejan los datos. En particular, los valores nulos o faltantes se pueden manejar de varias maneras. Y la operación como la división de enteros o la división por 0 puede causar estragos en las métricas.
Espero que eso ayude. Todo lo mejor y no dude en enviarme un mensaje si tiene alguna pregunta específica.