Cómo escanear un diccionario antiguo de manera que pueda indexar el contenido

Hay escaneo de libros, máquinas de Wikipedia (que automáticamente pasa las páginas y las fotografía con buena iluminación) y programas de reconocimiento óptico de caracteres (OCR) que convertirán las imágenes en texto que una computadora puede procesar.

Sin embargo, OCR no es 100% perfecto, y en situaciones donde la ortografía y la indexación son críticas, puede que no sea lo suficientemente bueno. Tampoco sé qué tan bien manejan los caracteres acentuados.

(Ver: Comparación del software de reconocimiento óptico de caracteres – Wikipedia)

Una vez que haya leído el documento como texto, probablemente tendrá que hacer un procesamiento para dividirlo en las palabras clave y la traducción / definición y colocarlo en algún tipo de base de datos que se pueda buscar. Es difícil adivinar qué pasos serían necesarios hasta que uno vea la salida del programa OCR.

Pero esas son las tecnologías que va a necesitar. Fotografiar las páginas a mano con una cámara normal o escanearlas en un escáner de superficie plana convencional no producirá la buena iluminación uniforme con la que un programa de OCR funciona mejor y dará como resultado imágenes distorsionadas debido a la curvatura de las páginas que pueden causar el OCR software para fallar por completo.

Ciencia dedatosinformáticaSistemas de bases de datos

Related Content

¿PostgreSQL es bueno o malo para Big Data?

¿Cuáles son los grandes proyectos de datos en torno a craigslist?

¿Qué empresas se están transformando para volverse más basadas en datos?

¿Qué necesito saber para convertirme en científico de datos?

¿Cuál es el mejor idioma para aprender a entrar en la ciencia de datos o big data en los requisitos actuales como graduado de comercio?

¿Existe una correlación entre big data y la sociedad de red?

Cómo iniciar una nueva empresa de ciencia de datos en un país en desarrollo como Bangladesh

Es factible en principio, pero probablemente necesitará algo de prueba y error. Primero, buen software de OCR. Si ambos idiomas están en el alfabeto romano, será de gran ayuda. Si hay diacríticos, idealmente querrías algún tipo de software entrenable, para que no siga cometiendo los mismos errores una y otra vez (aunque si el software de escaneo comete los mismos errores con total coherencia, puedes hacer un reemplazo global en los datos de salida).

El software de escaneo también necesitaría reconocer las palabras clave, ya que eso es lo que desea indexar. Si estos siempre comienzan en una nueva línea, eso no debería ser un problema; puede aislar la primera palabra en cada línea del texto de salida como un elemento para indexar. Pero nuevamente, tendrás que experimentar y ver qué funciona.

Lorna Morris

Podemos hacerlo. Tenemos un motor OCR construido desde cero, posee 0 años de inteligencia y ofrece una precisión de alrededor del 90% (lo cual es increíble), puede crear un diseño personalizado para el portugués. Se puede mejorar la precisión de los afectados si las páginas de los libros son:

Antiguo,
Rasgado,
Sucio,
Marcado.

Orin Hargraves

Wow, un proyecto interesante. No conozco ningún proceso que pueda hacer eso automáticamente. Lo único que se me ocurrió sería comenzar a escanearlo con el software OCR. Aunque una búsqueda en Google indica que hay software que puede hacer lo que estás buscando.

De lo contrario, me pondría en contacto con una universidad que tiene un departamento de lexicografía. ¿Supongo que estás en Mozambique? No conozco lexicógrafos mozambiqueños, pero Afrilex (redirección de página) es la Asociación Africana de Lexicografía, y puede haber alguien allí que pueda ayudarlo.

¡Buena suerte!

Lorna Morris

More Interesting

¿Existe una biblioteca GUI nativa estable para Go?

¿Qué tipo de análisis de datos hay en R?

¿Es legal enviar datos de Kaggle a GitHub?

¿Cuáles son las lecturas obligatorias para la ciencia de datos, estadísticas y aprendizaje automático?

¿En qué sector y en qué país se usa ampliamente el big data?

¿Dónde debo comenzar a aprender ML y minería de datos?

¿Cómo se utilizan los grandes datos en la industria del petróleo y el gas? La industria del petróleo y el gas ya contaba con sistemas de adquisición de datos e informes implementados para la producción y el mantenimiento. ¿Qué nivel adicional de gestión de datos proporciona Big Data?

¿Cuáles son los requisitos previos para los bootcamps de ciencia de datos?

¿Cómo juegan un papel los datos y el análisis en el negocio de un cliente?

¿Qué campo debo elegir, redes informáticas o ciencia de datos? Amo los dos.

¿Vale la pena organizar un concurso de dinero de Kaggle?

¿Cómo se pueden utilizar los grandes datos para mejorar la eficiencia de las operaciones de vuelo?

¿Cómo describiría la diferencia entre la gestión de información / datos y el análisis de datos?

¿Cuál es el mejor recurso en línea para aprender la programación de Python para la ciencia de datos?

¿Qué tipo de codificación se usa en ciencia de datos?

Web Analytics