Hay escaneo de libros, máquinas de Wikipedia (que automáticamente pasa las páginas y las fotografía con buena iluminación) y programas de reconocimiento óptico de caracteres (OCR) que convertirán las imágenes en texto que una computadora puede procesar.
Sin embargo, OCR no es 100% perfecto, y en situaciones donde la ortografía y la indexación son críticas, puede que no sea lo suficientemente bueno. Tampoco sé qué tan bien manejan los caracteres acentuados.
(Ver: Comparación del software de reconocimiento óptico de caracteres – Wikipedia)
- ¿Cuál es el lenguaje del big data?
- ¿Cuáles son los requisitos previos para una maestría en ciencia de datos?
- ¿Cuál es la diferencia entre un ingeniero de aprendizaje automático y un científico de datos en Quora?
- Cuando trabajamos en aprendizaje automático en big data, ¿podemos usar la biblioteca scikit-learn con MLlib?
- Como especialista en estadística, ¿qué cursos de informática debo tomar para convertirme en científico de datos?
Una vez que haya leído el documento como texto, probablemente tendrá que hacer un procesamiento para dividirlo en las palabras clave y la traducción / definición y colocarlo en algún tipo de base de datos que se pueda buscar. Es difícil adivinar qué pasos serían necesarios hasta que uno vea la salida del programa OCR.
Pero esas son las tecnologías que va a necesitar. Fotografiar las páginas a mano con una cámara normal o escanearlas en un escáner de superficie plana convencional no producirá la buena iluminación uniforme con la que un programa de OCR funciona mejor y dará como resultado imágenes distorsionadas debido a la curvatura de las páginas que pueden causar el OCR software para fallar por completo.