¿Cómo evaluaría la calidad de los datos y cómo se pueden mejorar?

En un nivel, la calidad de los datos se trata de datos incorrectos, datos que faltan o son incorrectos. Una definición más amplia es que la calidad de los datos se logra cuando una empresa utiliza datos completos, consistentes, relevantes y oportunos. Si se concentra solo en la definición de datos limitada, puede caer en una falsa seguridad cuando, de hecho, sus esfuerzos se quedan cortos.

Es un error pensar que todo lo que necesita hacer es “corregir” los datos incorrectos. La corrección implica que había algo mal con los datos originales, y puede solucionarlo una vez y terminar con eso. En realidad, el problema puede no haber sido con los datos en sí, sino con la forma en que se utilizaron. Cuando administra datos, administra la calidad de los datos. Es un proceso continuo. La limpieza de datos no es la respuesta a los problemas de calidad de los datos. Sí, la limpieza de datos aborda algunos problemas importantes de calidad de datos y ofrece un sólido retorno de la inversión (ROI), pero es solo un elemento del rompecabezas de la calidad de datos. Con demasiada frecuencia, la empresa compra una herramienta de limpieza de datos y cree que el problema está resuelto. En otros casos, debido a que el costo de las herramientas de limpieza de datos es alto, una empresa puede decidir que es demasiado costoso para ellos enfrentar el problema.

Escribí una sección sobre calidad de datos en el capítulo Procesos de integración de datos de mi libro, BI Guidebook-From Data Integration to Analytics.

Siempre hay una desconexión entre cómo queremos que sean nuestros datos y cómo resultan realmente. Cuando hablo sobre la calidad de mis datos, a menudo se refiere a qué tan lejos está realmente esta desconexión. Los datos de baja calidad a menudo son datos que no esperaba y no puedo ver el uso de. Dicho esto, como ya se mencionó, los datos son como el salvaje oeste. Viene como viene, a veces a través de la anarquía. Puede intentar proporcionar tanta estructura en sus datos como sea posible, pero si se trata de datos provenientes de cosas que pueden pensar de manera variable (como humanos versus sensores), entonces puede estar seguro de que la desconexión entre los datos espera usar y los datos que recibas serán bastante amplios.

Dicho esto, mejorar los datos puede ser de diferentes maneras. La reacción más fácil e intuitiva para mejorar los datos es hacer que se parezca más a lo que esperaba. Esto se puede hacer de varias maneras y estoy seguro de que hay muchas herramientas. Por ejemplo, puede combinar sus datos y utilizar solo los puntos de datos que se ajusten a sus expectativas para empezar. También podría “limpiar” todos sus datos y transformarlos para que se ajusten mejor a sus expectativas originales. Puede hacer una combinación de los dos anteriores y luego agregar los datos “falsos” para que sus distribuciones se parezcan más a las distribuciones. Los beneficios de hacer todo esto es que tenía expectativas sobre sus datos por una razón. Esa razón generalmente se deriva de las herramientas que espera usar más adelante para analizar sus datos, y seamos sinceros. Es mucho más fácil mejorar nuestros datos para nuestras herramientas, que mejorar nuestras herramientas para nuestros datos. Hay un momento y un lugar para ambas situaciones, mi consejo es elegir sabiamente tus batallas.

Pero hay algo que decir sobre los datos sin procesar a medida que ingresan. Y aunque solo somos humanos, no somos completamente incapaces de notar anormalidades interesantes que conducen a preguntas más interesantes y, por lo tanto, respuestas más interesantes.

More Interesting

¿Cómo la digitalización y los grandes datos afectan la productividad?

¿Cuál es el procedimiento de minería de datos?

¿Qué tecnología sería la mejor entre el desarrollo (Big Data-Hadoop / Android Application), considerando el crecimiento futuro, la estabilidad y el pago?

¿Cuáles son los usos de la estructura de datos de árbol?

¿Cómo se ve la arquitectura de datos de una red publicitaria?

¿Cómo es el programa inmersivo de ciencia de datos en Galvanize Denver? ¿Vale la pena?

No tengo ningún conocimiento sobre la ciencia de datos o cualquier tema relacionado, pero me gradué en informática, ¿cómo puedo aprender lo mismo y comenzar una carrera?

¿Vale la pena tomar el curso para desarrolladores de Big Data Hadoop de simplilearn.com?

¿Qué son los grados fantasmas de libertad?

¿Cómo puede un negocio crecer usando Big Data?

¿Hasta qué punto son aplicables las leyes de privacidad de la UE, por ejemplo, el derecho al olvido, a las empresas que dependen de modelos personalizados de aprendizaje automático?

Quiero tener una carrera en análisis de datos, sin embargo, no tengo habilidades de codificación informática. ¿Puedo sobrevivir con Microsoft Excel, Tableau y conocimiento estadístico?

¿El título de Data Science ayudaría a un emprendedor en los negocios?

¿Qué libro de ciencia de datos / blog-artículo / texto debería leer cada profesional de ciencia de datos para tener una mejor comprensión del tema?

¿Cuál es el mejor centro en Chennai para recibir capacitación científica en DATA?