Cómo escanear un diccionario antiguo de manera que pueda indexar el contenido

Hay escaneo de libros, máquinas de Wikipedia (que automáticamente pasa las páginas y las fotografía con buena iluminación) y programas de reconocimiento óptico de caracteres (OCR) que convertirán las imágenes en texto que una computadora puede procesar.

Sin embargo, OCR no es 100% perfecto, y en situaciones donde la ortografía y la indexación son críticas, puede que no sea lo suficientemente bueno. Tampoco sé qué tan bien manejan los caracteres acentuados.

(Ver: Comparación del software de reconocimiento óptico de caracteres – Wikipedia)

Una vez que haya leído el documento como texto, probablemente tendrá que hacer un procesamiento para dividirlo en las palabras clave y la traducción / definición y colocarlo en algún tipo de base de datos que se pueda buscar. Es difícil adivinar qué pasos serían necesarios hasta que uno vea la salida del programa OCR.

Pero esas son las tecnologías que va a necesitar. Fotografiar las páginas a mano con una cámara normal o escanearlas en un escáner de superficie plana convencional no producirá la buena iluminación uniforme con la que un programa de OCR funciona mejor y dará como resultado imágenes distorsionadas debido a la curvatura de las páginas que pueden causar el OCR software para fallar por completo.

Es factible en principio, pero probablemente necesitará algo de prueba y error. Primero, buen software de OCR. Si ambos idiomas están en el alfabeto romano, será de gran ayuda. Si hay diacríticos, idealmente querrías algún tipo de software entrenable, para que no siga cometiendo los mismos errores una y otra vez (aunque si el software de escaneo comete los mismos errores con total coherencia, puedes hacer un reemplazo global en los datos de salida).

El software de escaneo también necesitaría reconocer las palabras clave, ya que eso es lo que desea indexar. Si estos siempre comienzan en una nueva línea, eso no debería ser un problema; puede aislar la primera palabra en cada línea del texto de salida como un elemento para indexar. Pero nuevamente, tendrás que experimentar y ver qué funciona.

Podemos hacerlo. Tenemos un motor OCR construido desde cero, posee 0 años de inteligencia y ofrece una precisión de alrededor del 90% (lo cual es increíble), puede crear un diseño personalizado para el portugués. Se puede mejorar la precisión de los afectados si las páginas de los libros son:

  1. Antiguo,
  2. Rasgado,
  3. Sucio,
  4. Marcado.

Wow, un proyecto interesante. No conozco ningún proceso que pueda hacer eso automáticamente. Lo único que se me ocurrió sería comenzar a escanearlo con el software OCR. Aunque una búsqueda en Google indica que hay software que puede hacer lo que estás buscando.

De lo contrario, me pondría en contacto con una universidad que tiene un departamento de lexicografía. ¿Supongo que estás en Mozambique? No conozco lexicógrafos mozambiqueños, pero Afrilex (redirección de página) es la Asociación Africana de Lexicografía, y puede haber alguien allí que pueda ayudarlo.

¡Buena suerte!