¿Cuál es la mejor manera de fusionar datos mal estructurados de grandes bases de datos?

Bueno, si tienes un equipo de ingeniería decente, les pregunto. ¡Eso es presumiblemente por lo que les pagas!

Si me estuviera pagando, primero me aseguraría de que entendiera las Normas de privacidad de la información de salud individualmente identificable y otras cosas relacionadas de HIPPA.

Para la tarea de emparejamiento en sí, mi primera opción probablemente sería un enfoque de Aprendizaje activo, como la herramienta de datos abiertos / deduplicación de código abierto. El diseño de la tubería debe tener en cuenta otra información conocida sobre las fuentes de datos y los costos relativos de las fusiones erróneas frente a las fusiones perdidas (que probablemente no sean simétricas).

Estoy de acuerdo con Mike Peters en que un enfoque combinado máquina / humano es más poderoso que cualquiera de los dos, pero yo:

Use una función de distancia más sofisticada que simplemente editar la distancia (ver arriba)
Configure el componente de revisión humana para: a) requerir múltiples votos / revisiones yb) ser algo que podría hacerse en un entorno de microtask como Crowdflower o Amazon’s Mechanical Turk.

Related Content

¿Qué algoritmos debo saber para desarrollar una aplicación web sin conexión primero?

¿Qué son los problemas NP-completos? ¿Cómo podemos resolverlos?

¿Cómo se puede usar la máquina épsilon para realizar cálculos precisos de coma flotante?

¿Qué es una cola en la estructura de datos?

¿Qué es el hashing perfecto?

¿Debo ir con Amazon EC2 en lugar de Amazon Elastic Beanstalk?

¿Cómo funciona este algoritmo para encontrar el máximo común divisor (MCD)?

Este tipo de problema requiere una fusión entre hombre y máquina.

No tiene nada de malo. Palantir, Google y otros construyeron imperios utilizando técnicas similares.

Esto es lo que haces:

Paso 1

Haga que su script haga lo obvio de fusionar todos los registros donde Nombre + Apellido + Dirección + Código postal coinciden exactamente

Paso 2

Use la distancia de Levenshtein o el método MySQL soundex () para calcular la distancia entre dos nombres, como “Microsoft” y “Mikrosoft”.

Asigne un umbral de porcentaje con el que se sienta cómodo (tomará un poco de prueba y error) y combine todos los registros donde la puntuación de distancia se encuentre dentro del umbral aceptable.

Debe calcular puntajes únicos para cada parte de su clave (Nombre, Apellido, Dirección, etc.) y comparar cada uno por separado.

Cuando combine todos los registros que se encuentren dentro del umbral aceptable, agregue otra columna a la tabla que indicará que no eran coincidencias exactas.
Paso 3

Agregue todos los registros restantes que no se encuentren dentro de la distancia aceptable a una nueva tabla “require_review”

Etapa 4

Cree una interfaz de usuario básica que permita a un operador humano revisar los datos de los pasos 2 y 3, haciendo las correcciones necesarias

Tom Morris

More Interesting

¿De qué juez en línea puedo aprender algoritmos estándar y estructuras de datos?

¿Cómo dirigen los sistemas de guía del vehículo de lanzamiento la carga útil hacia órbitas tan precisas?

Cómo encontrar un elemento en un árbol de búsqueda binario

Quiero escribir un código que reproduzca 10 segundos de audio, luego pause durante 15 segundos y luego reproduzca los siguientes 10 segundos, etc. ¿Cómo lo haría?

¿Cuál es la prueba del algoritmo KMP?

¿Cuáles son las mejores visualizaciones de algoritmos de aprendizaje automático?

¿Cuál es el algoritmo o algún factor relevante de la clasificación de Google Play?

¿Cuál es el enfoque para resolver la interpretación de datos en CAT? ¿Se usa lápiz y papel para dibujar estructuras o se mantiene al mínimo?

¿Qué tan bueno es quicksort y cadenas?

¿Dónde puedo aprender los algoritmos de C ++ en línea?

¿Sigue siendo relevante el modelado de objetos, o se ha reemplazado hoy solo con datos y algoritmos?

¿Qué tan valioso sería ser ubicado para aprender la estructura de datos usando C?

Sistemas distribuidos: ¿Existe un algoritmo de elección de líder para un anillo sincrónico en el que todos los procesadores menos uno tienen la misma ID?

¿Cómo se diseña el algoritmo de búsqueda difusa en Sublime Text? ¿Cómo diseñarías algo similar?

¿Qué función se usa para aceptar números aleatorios entre límite inferior y superior en C?

Web Analytics