En un nivel, la calidad de los datos se trata de datos incorrectos, datos que faltan o son incorrectos. Una definición más amplia es que la calidad de los datos se logra cuando una empresa utiliza datos completos, consistentes, relevantes y oportunos. Si se concentra solo en la definición de datos limitada, puede caer en una falsa seguridad cuando, de hecho, sus esfuerzos se quedan cortos.
Es un error pensar que todo lo que necesita hacer es “corregir” los datos incorrectos. La corrección implica que había algo mal con los datos originales, y puede solucionarlo una vez y terminar con eso. En realidad, el problema puede no haber sido con los datos en sí, sino con la forma en que se utilizaron. Cuando administra datos, administra la calidad de los datos. Es un proceso continuo. La limpieza de datos no es la respuesta a los problemas de calidad de los datos. Sí, la limpieza de datos aborda algunos problemas importantes de calidad de datos y ofrece un sólido retorno de la inversión (ROI), pero es solo un elemento del rompecabezas de la calidad de datos. Con demasiada frecuencia, la empresa compra una herramienta de limpieza de datos y cree que el problema está resuelto. En otros casos, debido a que el costo de las herramientas de limpieza de datos es alto, una empresa puede decidir que es demasiado costoso para ellos enfrentar el problema.
Escribí una sección sobre calidad de datos en el capítulo Procesos de integración de datos de mi libro, BI Guidebook-From Data Integration to Analytics.
- ¿Cuál es la satisfacción laboral de los científicos de datos? ¿Para qué tipo de empresas ha trabajado o trabaja para ahora de alguna manera, y ahora es un científico de datos? ¿Qué responsabilidades e impacto ha influido en la empresa?
- ¿Qué universidades son mejores para la ciencia de datos?
- ¿Cuáles son los componentes de software comunes de un kit de herramientas de almacenamiento de datos?
- ¿Cómo funciona el análisis espacial con datos topológicos?
- Un instituto de capacitación me dijo que no hay trabajo para principiantes en big data, ¿es cierto? Me aconsejan que vaya a un curso de ciencias de datos, ¿qué debo hacer?