¿Cuáles son las mejores herramientas de limpieza de datos?

Existen varias herramientas para realizar la tarea de limpieza de datos. Pero las herramientas efectivas que pueden hacer que este proceso sea bastante fluido y ofrecer resultados 100% confiables son:

1 Super Cleaner: Super Cleaner es la mejor herramienta para teléfonos inteligentes con Android. Ayuda a limpiar el desordenado conjunto de datos. Además, es una de las herramientas más rápidas y convenientes. Entonces, si alguna vez ha experimentado un retraso o un atasco espeluznante al usar su teléfono, use una herramienta súper limpiadora para obtener los mejores resultados.

2 DataMatch: DataMAtch es una excelente herramienta de limpieza de datos utilizada en todo el negocio. Ofrecen una prueba gratuita para nuevos usuarios.

Además, hay algunas organizaciones de renombre que ofrecen este tipo de servicios a costos muy asequibles. Si desea implementarlo, puede contratar un especialista en marketing en línea confiable que pueda guiarlo bien para su implementación y utilizar sus servicios.

Para conjuntos de datos tabulares de <~ 1M filas, OpenRefine (ex-Google Refine) proporciona un poderoso conjunto de características fáciles de usar. Combina una interfaz de navegación facetada para un rápido análisis y selección con un conjunto de operadores disponibles a través de múltiples lenguajes de expresión.

Me he encontrado con DataMatch de Data Ladder, que es una excelente herramienta de limpieza de datos y estandarización de direcciones / análisis de direcciones que se utiliza en todas las empresas. Ofrecen una prueba gratuita para nuevos usuarios.

De hecho, se realizó una evaluación verificada independiente del software comparándolo con las principales herramientas de software de IBM y SAS. Hubo un estudio realizado en el Centro de Enlace de Datos de la Universidad de Curtin en Australia que simuló la coincidencia de 4.4 millones de registros. Identificó lo que los proveedores tenían en términos de precisión (Número de coincidencias encontradas vs disponibles. Número de coincidencias falsas)

1. DataMatch Enterprise, mayor precisión (> 95%), muy rápido, bajo costo

2. IBM Quality Stage, alta precisión (> 90%), muy rápido, alto costo (> $ 100K)

3. Flujo de datos SAS, precisión media (> 85%), rápido, alto costo (> 100K)

Para deduplicación a gran escala y vinculación de registros, puede verificar Reifier de Nube Technologies (vinculación de entidades y coincidencia difusa de big data).

Descargo de responsabilidad: soy el fundador de Nube

Si quieres algo totalmente gratis. Puedes probar google refine.
Si necesita algo de soporte y quiere más funciones. Puedes probar TIBCO Clarity.

He intentado ambos. Creo que son realmente similares entre sí, pero Clarity tiene muchas características nuevas y potentes.
Por ejemplo:
Puede cargar directamente datos de diferentes fuentes, como bases de datos, almacenamiento en la nube, fuerza de ventas, …
Creo que les va muy bien en la parte de deduplicación y la limpieza de direcciones, especialmente para la función de-dup. Admiten columnas intercambiables y coincidencia difusa, que son características realmente útiles para mí.

Puedes probar la claridad gratis
Software de limpieza y transformación de datos

TIBCO Clarity es el componente de estandarización y limpieza de datos del sistema de software TIBCO. Sirve como una solución única para que los usuarios comerciales manejen datos desordenados masivos en varias fuentes, aplicaciones y sistemas, como bases de datos, almacenamiento en la nube, TIBCO Jaspersoft, Spotfire, ActiveSpaces, MDM, Marketo y Salesforce. TIBCO® Clarity facilita a los usuarios empresariales el perfil, la validación, la deducción, la limpieza de direcciones, la estandarización, la transformación y la visualización de datos para que se puedan identificar tendencias y tomar decisiones inteligentes rápidamente. TIBCO Clarity proporciona tanto en la versión de nube como en la versión de edición empresarial.

Descripción general / características de TIBCO Clarity:
https://clarity.cloud.tibco.com/

TIBCO Clarity más de 40 videos de demostración (¡Mírame!):
https://clarity.cloud.tibco.com/

Prueba gratuita de TIBCO Clarity on Cloud durante 90 días:
Software de limpieza y transformación de datos

Contacto de soporte de TIBCO Clarity (¡ Responda cualquier pregunta de Clarity en 2 horas! ):
[correo electrónico protegido] .
https://clarity.cloud.tibco.com/

Documentación de TIBCO Clarity:
tibco.com
Documentación de producto

Contacto de ventas de TIBCO Clarity:
Calidad de datos en la nube

Echa un vistazo a Parabola. Puede importar datos de muchos tipos de fuentes y configurar su canal de limpieza (filtrado, puntuación, expresiones regulares, manipulación de columnas, deducciones contra otras listas, etc.). Configure sus pasos una vez, y luego puede ejecutar cualquier información automáticamente. Aquí hay un ejemplo:

Eche un vistazo a Ideata Analytics Wrangling ( https://ideata-analytics.com/ ). Es un producto de análisis de extremo a extremo que proporciona una interfaz de preparación de datos de autoservicio para reparar datos sucios y faltantes.

Puede cargar fácilmente sus datos de cualquier tamaño o variedad desde cualquier tipo de fuente de datos. Una vez cargado, le mostrará una vista previa de su conjunto de datos con sugerencias automáticas impulsadas por el aprendizaje automático para limpiar sus datos. Puede hacer clic en las sugerencias dadas y ver cómo se verá la salida al instante. Si está de acuerdo con el resultado, puede aplicar esa operación a los datos completos.

Con más de 250 funciones de preparación de datos preconstruidas, puede limpiar y enriquecer sus datos con facilidad. Guarde sus scripts de preparación de datos y ejecútelos automáticamente en cualquier dato entrante.

Le permite discutir o limpiar sus datos visual e interactivamente en la nube. http://ideata-analytics.com/data

La suite DataMatch Enterprise es una aplicación de limpieza de datos de escritorio altamente visual diseñada específicamente para resolver problemas de calidad de datos de clientes y contactos. DataMatch Enterprise incluye múltiples algoritmos patentados y estándar para detectar variaciones fonéticas, difusas, erróneas y abreviadas.

El conjunto consta de configuraciones escalables para deduplicación y vinculación de registros, supresión, mejora, extracción y estandarización de datos comerciales y de clientes.

La suite DataMatch Enterprise se puede utilizar para buscar y vincular datos de clientes, consolidar datos en múltiples fuentes y eliminar registros fallecidos y no deseados, mejorando de manera rápida y fácil su rendimiento de marketing y envío. Con la suite DataMatch Enterprise, puede automatizar las funciones de mantenimiento diario con API.

  • Datameer (puede hacer más)
  • Paxata
  • Trifacta

Puede comparar las mejores herramientas de limpieza de datos aquí Herramientas de limpieza de datos. Han revisado y calificado las mejores herramientas, espero que les sirva de ayuda.