¿Cuáles son los principios de recopilación y análisis de datos?

Aquí hay una lista de verificación de sugerencias prácticas que aprendí principalmente por las malas, y hago todo lo posible para profundizar en los analistas de mi equipo cuando trabajamos con conjuntos de datos desconocidos:

Comprender el proceso de generación de datos. Se le dan datos de la orden de compra. Si lo tomara al pie de la letra sin comprender que la mitad de los datos se generaba automáticamente y la otra mitad se ingresaba manualmente, con diferentes plazos de entrega, eso le habría costado cientos de miles en pronósticos de inventario incorrectos.

La cordura verifica tus datos. Se le proporciona un conjunto de datos de transacciones financieras para analizar las tendencias. Si se toma el tiempo para hacer un análisis exploratorio de datos y se asegura de que los datos tengan sentido, descubre millones de dólares en transacciones dentro de 50 años . Obviamente, fue un error o una peculiaridad del sistema que habría estropeado cualquier cálculo que hubiera hecho.

Verifique si hay definiciones cambiantes. Si observa los datos del censo o los conjuntos de datos de “datos abiertos”, existe el peligro de que la definición (por ejemplo, lo que constituye un delito penal “grave”) cambie a la mitad del tiempo.

Piensa cuidadosamente sobre el sesgo de la muestra. En un estudio gubernamental sobre transporte público se realizó en una estación de tren. No hay forma que sea representativa de lo que piensa la población en general. (Si alguien odiara el transporte público o sintiera que no satisface sus necesidades, no estaría en el
estación de tren)

Piensa en el contexto de los datos . En los datos de nómina, tratar de comparar paquetes entre países puede ser complicado. Además de los tipos de cambio cambiantes, los diferentes países tienen diferentes puntos de vista sobre el salario fijo frente a las comisiones, el salario mínimo, los bonos, el ahorro regulado, etc.

Comprender las estadísticas . Habrá casos en los que se acerquen datos comparables, y los consumidores de sus datos tendrán hambre de ‘señal’ que los influya de una manera u otra. Es su responsabilidad señalar algunos hallazgos que ahora son estadísticamente significativos. También es su responsabilidad elegir sus métricas con cuidado: el “promedio” simplemente falla en muchas situaciones.

Hable con los DBA para comprender las peculiaridades específicas del sistema. Los conjuntos de datos de la vida real están plagados de comportamientos extraños impulsados ​​por la forma en que los diferentes sistemas manejan los datos. En particular, los valores nulos o faltantes se pueden manejar de varias maneras. Y la operación como la división de enteros o la división por 0 puede causar estragos en las métricas.

Espero que eso ayude. Todo lo mejor y no dude en enviarme un mensaje si tiene alguna pregunta específica.

En nuestro caso, aplicamos lo siguiente:
– Obtenga datos más cercanos a la fuente. Cuanto más autoritario, mejor. Los sistemas de mediación y puesta en escena tienden a transformar y reorganizar los datos. También se suman a la latencia.
– Minimiza las transformaciones. Intente conservar la mayor cantidad de datos originales posible. Necesitará saber cuándo tendrá un campo o fila en particular que soltó anteriormente. Las transformaciones en los sistemas fuente también pueden hacer que cada recurso afecte el rendimiento de los sistemas fuente. Lo máximo que hacemos es diseñar y catalogar los datos para que sea más fácil encontrarlos y procesarlos.
– Recoger con la mayor frecuencia posible. Para sistemas altamente transaccionales, la recopilación con mayor frecuencia distribuye el costo de recursos de recopilar los datos. Si los datos se agrupan y se agrupan en menos períodos, esto requiere un aumento en los recursos para manejar el volumen, como más procesamiento, almacenamiento y redes.

La recopilación de datos se trata de recopilar datos, y esta se considera la etapa inicial de cualquier actividad. A menos que y hasta que tenga los datos con usted, no pueda progresar. Pero, la recopilación de datos de campo no es una tarea fácil. Debe concentrarse en ciertos principios al recopilar los datos. Esos son:

Relevancia: los datos que ha recopilado deben ser relevantes para su empresa o marca y deben coincidir con sus requisitos.

Simplicidad: los datos deben ser simples y fáciles de analizar.

Precisión: los datos recopilados deben ser precisos y precisos. Si recopila datos incorrectos, todo el proceso y el análisis de datos también saldrán mal.

Claridad: los datos deben ser claros y fáciles de entender.

Debe prestar atención a estos factores tanto para la recopilación de datos como para el análisis de datos. Estos son los factores clave para todo el proceso de Informes de campo y debe recordarlo.

More Interesting

¿Es Ruby un buen lenguaje para la ciencia de datos?

Si mis datos consisten en Hosts e Invitados, ¿cómo estructuraría la base de datos para que no termine con una gran cantidad de datos duplicados?

¿Cómo se delinean las startups entre las funciones de un científico de datos y una persona analítica más general / orientada a la adquisición?

¿En cuál debo inscribirme, Udacity data science nanodegree o diploma actualizado de PG en análisis de datos?

¿Cuál es el programa de estudios para la ciencia de datos?

¿Cómo es el programa inmersivo de ciencia de datos en Galvanize Denver? ¿Vale la pena?

¿Qué diferencia a una solución típica de Kaggle en algún lugar en el medio del paquete frente a alguien en, digamos, el 5-10% superior?

¿Cuáles son algunos de los mayores problemas que las herramientas de Big Data y visualización de datos pueden resolver para los participantes del mercado financiero?

¿Cuáles son las diferencias entre una maestría en MIS, aprendizaje automático y ciencia de datos?

¿Cuál es la pregunta sin respuesta más importante sobre Quora relacionada con big data y data science?

¿Cómo afectan los big data, el aprendizaje automático y la ciencia de datos al campo de la educación?

¿Cuáles son los últimos métodos 'innovadores' en análisis predictivo?

¿Cómo se puede pasar de la función de consultor de un MBB a la función de ciencias de datos?

¿Podemos usar análisis de datos, SAS y probabilidad al aplicar un modelo a una hipótesis para encontrar la pareja adecuada para el matrimonio?

¿Cómo se pueden utilizar las tecnologías e iniciativas de Big Data dentro de las aplicaciones de Sistemas Inteligentes de Transporte (ITS)?