¿Cuáles son algunas de las mejores prácticas para la limpieza de datos?

Las empresas siempre tienen algunos datos importantes que pasar el rato. De hecho, probablemente tenga muchos datos importantes en muchos lugares diferentes, internos y externos. Si sus datos no están limpios, no puede obtener una buena puntuación, ejecutar excelentes programas de crianza o tener listas segmentadas sólidas. La mala calidad de los datos es la razón de la pérdida de ingresos. Lo que puede faltar son las mejores prácticas de administración de datos que podrían ayudarlo a obtener todos esos datos y observarlos más de cerca. Antes de comenzar, no lo olvides; Mejores prácticas de gestión de datos = mejores análisis. Quizás es por eso que la limpieza de datos está en aumento.

1. Estrategias de actividad de limpieza de datos

Sepa dónde ocurren la mayoría de los errores de datos e identifique datos incorrectos. Le ayudará a usted y a sus equipos a evaluar la causa raíz y a desarrollar una estrategia en torno a ella. Una estrategia integral de limpieza de datos afectará a varios departamentos, por lo que debe mantener la comunicación abierta y enfatizar que una mejor inteligencia les ahorrará a todos mucho dinero.

2. Estandarice los datos en el punto de entrada mismo

Verificar todos los datos, importantes o no, en el punto de entrada realmente ayuda. Se asegurará de que toda la información esté estandarizada cuando ingrese a su base de datos y facilitará la captura de duplicados. Los profesionales de modelado de datos, desde un equipo de expertos en gestión de datos, pueden ayudar fácilmente a su organización a hacer frente a este requisito.

3. La precisión es muy importante, valide sus datos

La validación de datos en tiempo real y la limpieza simultánea de las bases de datos existentes es obligatoria. Invertir en un equipo de proveedores de soluciones de datos tiene rendimientos realmente altos, y es un hecho comprobado. Ellos, con sus herramientas de limpieza de datos, pueden limpiar información como importar listas, verificar direcciones y lo que no. Le ayuda con un marketing efectivo, ya que ocurre solo cuando la calidad de los datos es alta y los expertos pueden fusionar sin problemas varios conjuntos de datos. Incluye:

  • Restricciones de tipo de datos: los valores en una columna deben ser de cierto tipo (numérico, fecha, etc.)
  • Restricciones de rango: existen restricciones mínimas y máximas para los datos.
  • Restricciones obligatorias: estos son campos obligatorios; no puede estar vacío.
  • Restricciones únicas: datos que no pueden repetirse y requieren valores únicos (por ejemplo, números de seguridad social).
  • Restricciones de membresía de conjunto: estos son datos que deben elegirse de una lista de opciones preexistente.
  • Patrones de expresión regular: esto se aplica a los datos que tienen un cierto patrón en la forma en que se muestran (por ejemplo, números de teléfono).
  • Validación de campo cruzado: la suma de las partes de datos debe ser igual a un todo

4. Identificar y deshacerse de registros duplicados.

La limpieza es el proceso de detectar activamente errores y eliminarlos. Ahorre tiempo a su equipo e incorpore prácticas o contrate expertos en limpieza de datos para identificar duplicados de manera efectiva.

5. Agregar datos

Después de que sus datos se hayan estandarizado, validado y borrado en busca de duplicados, busque ayuda de fuentes de terceros para agregarlos. Fuentes confiables de terceros pueden capturar información directamente de sitios de terceros, luego limpiar y compilar los datos para proporcionar información más completa para inteligencia empresarial y análisis. Esto lo ayudará a desarrollar y fortalecer la segmentación de sus clientes y a enviar información más específica a los clientes actuales y potenciales.

Mantener sus datos limpios puede ser una tarea desalentadora, especialmente cuando se trata de hacer cambios manuales en varios puntos de datos. Antes de implementar la limpieza de datos, es importante mirar el panorama general, de lo contrario, podría ahogarse en un lío de datos de contacto antiguos e inexactos. ¿Cuáles son tus metas y expectativas? ¿Cómo planeas ejecutarlo con éxito?

Consejos varios:

  • Ordenar los datos por diferentes atributos. Los números negativos, las cadenas que comienzan con símbolos oscuros y otros valores atípicos a menudo aparecerán en la parte superior de su conjunto de datos después de una clasificación.
  • Mire las estadísticas de resumen (media, desviación estándar, número de valores faltantes, etc.) para cada columna. Estos pueden usarse para concentrarse rápidamente en los problemas más comunes.
  • Realice un seguimiento de cada operación de limpieza que realice para poder modificar, repetir o eliminar las operaciones según sea necesario. Idealmente, use una herramienta que haga un seguimiento de sus acciones.
  • Para grandes conjuntos de datos desordenados, alcanzar el 100% de limpieza es casi imposible. Asegúrese de tener objetivos realistas establecidos cuando comience a trabajar en un problema; de lo contrario, estará luchando contra la ley de Parkinson. Si tiene una lista de problemas de limpieza, ordénelos por frecuencia estimada y ataque los problemas más comunes hasta que su conjunto de datos sea lo suficientemente bueno.
  • Para conjuntos de datos grandes, realice la mayor parte de su trabajo en una muestra pequeña y aleatoria. Trabajar con menos datos mejorará su velocidad de iteración. Finalmente, una vez que haya limpiado la pequeña muestra, repita sus pasos de limpieza en todo el conjunto de datos.
  • También puede usar el muestreo para probar la calidad de los datos. Por ejemplo, la prueba de aceptación para su conjunto de datos podría ser algo así como: “Si elige 250 filas aleatorias, no más de 5 de ellas deberían tener problemas de formato”.
  • Las herramientas como OpenRefine (anteriormente Google Refine) pueden ahorrarle mucho tiempo al realizar muchas limpiezas simples (por ejemplo, canonicalizaciones de cadenas) con muy poca entrada del usuario.
  • Conviértete en un experto en el uso de expresiones regulares.
  • Cree un conjunto de funciones / scripts / herramientas de utilidad para manejar tareas de limpieza comunes. Estos pueden incluir: búsqueda y reemplazo de expresiones regulares, reasignación de valores basados ​​en una base de datos SQL o archivo CSV, borrando todos los valores que no coinciden con una expresión regular o una lista de valores permitidos, eliminando filas que coinciden o no filtro, y así sucesivamente. Si te encuentras repitiendo varios pasos una y otra vez, escribe un guión para manejar todos los pasos a la vez.

La limpieza de datos es un proceso útil y esencial. Básicamente es el proceso de asegurarse de que un conjunto de datos sea correcto y preciso. Debe ser apropiado y apropiado.

Hoy existen diferentes herramientas utilizadas en el proceso de limpieza de datos . Estas herramientas verifican la exactitud y la coherencia de los registros, y se corrigen o eliminan según sea necesario.

Todo el proceso involucra a un individuo o individuos que leen un conjunto de registros de datos y verifican su precisión.

Se aseguran de resolver todos los errores y errores que están presentes en los datos, como errores tipográficos y ortográficos, la información de la base de datos mal etiquetada se etiqueta y archiva correctamente, y se completan las entradas incompletas o faltantes.

Hoy las empresas contratan a diferentes profesionales y expertos para realizar la limpieza de datos. Pero es muy importante seleccionar al profesional adecuado para su empresa.

Agregando a la gran lista de Leo Polovets:
* Búsqueda de errores de tipo de datos. ej. valores numéricos que fueron leídos como cadenas, fechas como rangos (por ejemplo 1-10 en lugar de 10/1. Sucede).
* Inconsistencias. Por ejemplo, supongamos que tiene una lista de números de SKU y el nombre del producto (194392: medias blancas). Debe verificar, usar un poco de python sería útil, que no tiene ningún otro nombre de producto asociado con 194392, y ningún otro número de SKU para medias blancas.
[Actualizar:]
* Además, al agregar etiquetas a los registros en función de un determinado valor (p. Ej., Pequeño, Mediano, Grande para el tamaño de la empresa, en función del número de empleados), evite la práctica de usar una declaración if que use lógica como “if none of the etiquetas n-1 anteriores, entonces es la enésima etiqueta “. Eso sería una trampa que conduce a errores. Por ejemplo, si realmente le falta el valor necesario para realizar el cálculo, el resultado aplicará la enésima etiqueta, en lugar de generar un error.

Pasé bastante tiempo recientemente analizando conjuntos de datos clínicos para un par de proyectos. Esto me ha recordado los errores que he cometido en el pasado y las lecciones que he aprendido para hacer la vida MUCHO más fácil. ¡Pensé en compartir algunos pensamientos!

Planificar con anticipación y seguir algunas reglas simples antes de recopilar / ingresar datos puede hacer que el análisis en una etapa posterior sea mucho más fácil. Al revisar una hoja de cálculo de datos limitada a 30 filas (por ejemplo, Hb, plaquetas … … etc.), estaría bastante seguro de encontrar errores. Se necesita tiempo y paciencia y no es 100% preciso, pero se puede hacer. Sin embargo, si se enfrenta con bases de datos más grandes, el incumplimiento de estas reglas básicas puede hacer que el análisis sea una pesadilla.

En general, hay 2 tipos de datos: datos numéricos y datos de texto. Pensando primero en los datos numéricos, para las bases de datos clínicas, esto a menudo se ingresa manualmente. Si este es el caso, inevitablemente habrá errores. Es esencial que estos errores se encuentren antes de comenzar cualquier análisis. La importancia de esto no se puede exagerar. He trabajado en varios proyectos donde la publicación resultante describe una condición clínica. Estas publicaciones pueden convertirse en una fuente de referencia importante para los médicos que diagnostican y manejan la afección en cuestión. Si el cuadro clínico presentado en la publicación es incorrecto, la práctica de otros médicos puede verse influenciada incorrectamente con consecuencias significativas para los pacientes. ¿Algunos ejemplos? En una base de datos en la que trabajé recientemente, se ingresó un recuento de plaquetas como 10.3. Como muchos de los pacientes eran trombocitopénicos, esto no era inherentemente incorrecto. Sin embargo, el laboratorio en cuestión informó que los recuentos de plaquetas son enteros. Entonces este punto de datos estaba claramente equivocado. De hecho, puede haber sido 103, pero esto fue imposible de confirmar. ¿Entonces lo que hay que hacer? Primero, es importante reconocer que la inclusión de este punto de datos podría haber afectado significativamente el valor medio informado. Como era un punto único, esto podría no haber sido significativo. Sin embargo, con múltiples errores esto se vuelve más preocupante. Y el cuadro clínico informado puede ser engañoso. La respuesta es que dichos puntos de datos deben eliminarse. Es mejor eliminar que incluir un punto de datos que es claramente incorrecto. Ahora, ¿cómo encontrar esos puntos de datos? La verificación manual es posible, pero en sí misma no es 100% confiable como anteriormente. Excel se usa a menudo para tales bases de datos, y hay muchas funciones en Excel que ayudan. Min y Max son útiles aquí, ya que a menudo identifican valores atípicos que deberían eliminarse. El paciente registró un peso de 20 kg en un estudio de adultos. Al menos esto se identificará mediante la función min, y luego se puede tomar una decisión si este punto de datos es correcto: probablemente no. Si el valor real no se puede verificar, entonces el punto de datos se puede eliminar.

Si es necesario ser lo más preciso posible, se puede utilizar la doble entrada: al igual que cuando se cambia la contraseña para muchas aplicaciones informáticas. Se configuran dos columnas para cada punto de datos, y los datos ingresados ​​dos veces. ¡Sin cortar y pegar! Una tercera columna simplemente usa la capacidad de Excel menos ‘función’ para restar una celda de la otra para verificar si las 2 entradas de datos están de acuerdo. La respuesta en la tercera columna debe ser 0. Cualquier valor que no sea 0 se puede identificar fácilmente, lo que permite corregir los errores de entrada de datos.

¡Los datos de texto pueden ser más difíciles! Una vez más, una de las funciones de Excel más comunes para usar es “Countif”. Esto contará la cantidad de veces que se ingresa el texto especificado en una fila / columna dada de la hoja de datos. El problema es que si el texto se ingresa incorrectamente, ese punto de datos no se contará. He pasado muchas horas buscando datos faltantes que no se han contado en esas hojas de cálculo. Countif no distingue entre mayúsculas y minúsculas, por lo que se contarán tanto el inglés como el inglés. Pero Egnlish no lo hará. Tampoco Eng-lish o Engl ish o Englis. Puede parecer fácil de identificar, pero en una base de datos de quizás 650 filas, de repente se vuelve mucho menos sencillo. Aún más difícil es que los espacios al principio o al final de las palabras también harán que se pierdan las entradas. ¡Esto puede ser una pesadilla para encontrar incluso en bases de datos bastante pequeñas!

Aún más importante es planificar cómo ingresará los datos. He trabajado con bases de datos con entradas en una sola celda como Hemorrhage-epistaxis, Haemorrhage-GI, Haemorrhage-UGI y Haemorrhage-LGI. Si lo que quieres contar es hemorragia, esto no funciona. Muchos serán extrañados. Es mucho mejor tener 2 columnas con cada componente de la descripción en una columna separada. Luego se pueden contar por separado. Otra opción es tener un código numérico, que elimina los errores de ortografía, pero aumenta la posibilidad de una ‘traducción’ incorrecta. Pensar esto detenidamente antes de que comience la entrada de datos ahorrará mucho tiempo en lo que respecta al análisis de datos.

En general, el mensaje es planificar con anticipación antes de comenzar la recopilación de datos. Sepa cómo analizará los datos antes de comenzar, comprenda cómo funciona su aplicación de hoja de cálculo e ingrese sus datos de una manera que facilite el análisis. ¡La planificación y la visión de futuro lo son todo!

Algunas de las mejores prácticas para la limpieza de datos incluyen,

  1. Ordenar datos por diferentes atributos
  2. Para grandes conjuntos de datos, límpielos paso a paso y mejore los datos con cada paso hasta lograr una buena calidad de datos.
  3. Para conjuntos de datos grandes, divídalos en datos pequeños. Trabajar con menos datos aumentará su velocidad de iteración
  4. Para manejar una tarea de limpieza común, cree un conjunto de funciones / herramientas / scripts de utilidad. Puede incluir, reasignar valores basados ​​en un archivo CSV o una base de datos SQL o, buscar y reemplazar expresiones regulares, eliminar todos los valores que no coinciden con una expresión regular
  5. Si tiene un problema con la limpieza de datos, organícelos según la frecuencia estimada y ataque los problemas más comunes
  6. Analice las estadísticas de resumen para cada columna (desviación estándar, media, número de valores faltantes,)
  7. Mantenga un registro de cada operación de limpieza de fechas, para que pueda modificar los cambios o eliminar operaciones si es necesario

Mejores prácticas en limpieza de datos Una guía completa de todo lo que necesita hacer antes y después de recopilar sus datos
Jason W. Osborne

puedes referir este libro. El mejor para la limpieza de datos todavía. !!

Mejores prácticas en villas de limpieza de datos Una guía completa de todo lo que necesita hacer antes y después de recopilar sus datos

La mejor práctica para la limpieza de datos es que debe clasificar los datos de datos sin procesar a datos útiles y hacer que valga la pena

Ixsight ayuda en el mismo proceso

Para más detalles visite la limpieza de datos

Hola, hay algunos buenos consejos y sugerencias sobre la limpieza de sus datos en esta infografía de la compañía de correo Baker Goodchild: Limpieza de su acto y sus datos: Guía esencial para limpiar datos

Entra en buenos detalles sobre los procesos involucrados y lo que puede esperar obtener del uso de un servicio de limpieza de datos.