Internet: ¿Cuáles son algunos hechos alucinantes sobre internet?

Todos nos hemos encontrado con el captcha omnipresente, las imágenes coloridas con texto distorsionado , una especie de prueba inversa de Turing. Funcionan porque actualmente ningún algoritmo puede leer texto distorsionado tan bien como nosotros los humanos . Sin embargo, no todos los textos distorsionados son ilegibles por las máquinas. Alrededor de 200 millones de captchas se resuelven todos los días, lo que equivale a más de 150,000 horas de trabajo cada día. Teniendo en cuenta los números involucrados, se necesitaba un sistema seguro de generación de captcha. Ingrese Google reCAPTCHA. Para hacer un uso positivo de este inmenso esfuerzo humano, reCAPTCHA canaliza el esfuerzo dedicado a resolver captcha en línea en libros de “lectura”.

Para archivar el conocimiento humano y hacer que la información sea más accesible al mundo, múltiples proyectos están digitalizando libros físicos que se escribieron antes de la era de las computadoras. Las páginas del libro se escanean fotográficamente y luego se transforman en texto mediante el “Reconocimiento óptico de caracteres” (OCR). La transformación en texto es útil porque escanear un libro produce imágenes, que son difíciles de almacenar en dispositivos pequeños, caros de descargar y no se pueden buscar. El problema es que el OCR no es perfecto.

reCAPTCHA mejora el proceso de digitalización de libros mediante el envío de palabras que las computadoras no pueden leer en la Web en forma de CAPTCHA para que los humanos las descifren. Más específicamente, cada palabra que OCR no puede leer correctamente se coloca en una imagen y se usa como CAPTCHA. Esto es posible porque la mayoría de los programas de OCR lo alertan cuando una palabra no se puede leer correctamente y esto también asegura que la imagen sea ilegible para las máquinas.

Pero si una computadora no puede leer tal CAPTCHA, ¿cómo sabe el sistema la respuesta correcta al rompecabezas? Aquí se explica cómo: cada palabra nueva que no puede leer correctamente OCR se le da a un usuario junto con otra palabra para la que ya se conoce la respuesta. Luego se le pide al usuario que lea ambas palabras. Si resuelven la respuesta conocida, el sistema asume que su respuesta es correcta para la nueva. Luego, el sistema proporciona la nueva imagen a otras personas para determinar, con mayor confianza, si la respuesta original fue correcta. Se ha informado que el sistema muestra más de 100 millones de CAPTCHA todos los días, y entre sus suscriptores se encuentran sitios tan populares como Facebook, TicketMaster, Twitter, 4chan, CNN.com, Craigslist y StumbleUpon. ¡El proyecto reCAPTCHA de Google es asombrosamente elegante y asombrosamente simple!

Fuentes:

¿Qué es reCAPTCHA?
reCAPTCHA

NOTA: El reCAPTCHA fue creado originalmente por Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham y Manuel Blum. Google lo adquirió el 16 de septiembre de 2009 por $ 27 millones.

Internet