¿Cómo hace Google para digitalizar libros?

Los libros se escanean y luego, los caracteres son reconocidos por OCR (Reconocimiento óptico de caracteres).
Pero debido a imperfecciones en el proceso de escaneo, algunos caracteres pueden no convertirse correctamente a digital. Para este propósito, hay algo llamado reCAPTCHA.

CAPTCHA (Prueba de Turing pública completamente automatizada para distinguir a computadoras y seres humanos) es algo que permite la prevención de scripts automáticos que hacen registros falsos (o simplemente, para evitar bots). Este proceso implica que el usuario lea los caracteres distorsionados que se les presentan en pantalla y luego los escriba en el cuadro que se proporciona a continuación. Esta entrada se verifica y el usuario tiene acceso a lo que quiera, siempre que la información proporcionada sea correcta.

Ahora, reCAPTCHA es un proceso en el que se muestran dos palabras al usuario.
Uno, que ya es reconocido por OCR y el otro es una palabra que no es inteligible. Entonces, el usuario realmente ayuda a digitalizar los libros.
Millones de CAPTCHA se llenan todos los días, lo que hace que el proceso de digitalización sea mucho más simple y preciso.

También es posible que desee ver esto:
http://www.google.com/recaptcha/…