Bueno, si tienes un equipo de ingeniería decente, les pregunto. ¡Eso es presumiblemente por lo que les pagas!
Si me estuviera pagando, primero me aseguraría de que entendiera las Normas de privacidad de la información de salud individualmente identificable y otras cosas relacionadas de HIPPA.
Para la tarea de emparejamiento en sí, mi primera opción probablemente sería un enfoque de Aprendizaje activo, como la herramienta de datos abiertos / deduplicación de código abierto. El diseño de la tubería debe tener en cuenta otra información conocida sobre las fuentes de datos y los costos relativos de las fusiones erróneas frente a las fusiones perdidas (que probablemente no sean simétricas).
- Dado un gráfico ponderado de N nodos, ¿existe un algoritmo que calcule la ruta más corta entre todos los nodos?
- ¿Cómo implementas quicksort en c? Sé que hay respuestas disponibles en línea, pero estoy buscando idealmente la forma más elegante.
- Cómo implementar un hashing sensible a la localidad
- Si f (n) es O (g (n)) yf (n) es O (h (n)), entonces cuál de las siguientes afirmaciones debe ser verdadera: f (n) + g (n) es O (h (n)), g (n) + h (n) es O (f (n)), f (n) es O (g (n) + h (n)), o ninguno de los anteriores?
- ¿Cómo calculo el antilog de -0.7006?
Estoy de acuerdo con Mike Peters en que un enfoque combinado máquina / humano es más poderoso que cualquiera de los dos, pero yo:
- Use una función de distancia más sofisticada que simplemente editar la distancia (ver arriba)
- Configure el componente de revisión humana para: a) requerir múltiples votos / revisiones yb) ser algo que podría hacerse en un entorno de microtask como Crowdflower o Amazon’s Mechanical Turk.