Dada una biblioteca que proporciona una coincidencia aproximada de cadenas, ¿cuáles son algunos procedimientos adicionales que pueden explicar una mejor coincidencia de cadenas?

Los algoritmos aproximados de coincidencia de cadenas devuelven la (s) cadena (s) en una base de texto que se encuentran dentro de una distancia de edición máxima o la distancia de edición más cercana de la cadena que está tratando de hacer coincidir. La distancia de edición es el número de ediciones necesarias para hacer que las dos cadenas sean iguales.
Por una mejor coincidencia de cadenas, supongo que te refieres a identificar cadenas que están más cerca de la distancia de edición máxima especificada en el algoritmo en la función de tu biblioteca. Esto, por supuesto, terminará con menos o ninguna cadena coincidente. ¿Supongo que el volumen de coincidencias devuelto es tu problema?
Puedo ver cómo pueden ayudar sus dos primeras ideas. No estoy seguro sobre el último. Aquí hay tres sugerencias diferentes para investigar:

  • Compruebe si puede especificar la distancia de edición de un parámetro. Si es así, lo hacen más pequeño. Verifique la página de especificaciones / manual o lo que sea.
  • Si la coincidencia aproximada de cadenas devuelve una lista de todas las cadenas coincidentes, escriba o modifique su propia función para hacer una coincidencia más estrecha entre el original y el subconjunto de cadenas devuelto desde la base de texto. Tendrá una tarea mucho más pequeña que la función de biblioteca y, por lo tanto, puede usar algunas técnicas de emparejamiento más sencillas.
  • Esta es una posibilidad remota, pero es muy simple. Vuelva a aplicar la función aproximada de coincidencia de cadenas, buscando una coincidencia con la cadena original, pero con los resultados de la primera pasada como la segunda ronda de la base de texto. Si el algoritmo ajusta la distancia de edición en función de algún tipo de evaluación de carga, dará “mejores” coincidencias en la segunda vuelta. Si esto funciona, puede hacerlo repetidamente para encontrar una mejor coincidencia.

Estoy adivinando mucho sobre su escenario aquí. Espero no estar muy lejos de la base.