¿Por qué las computadoras encontrarían más fácil leer el alfabeto romano que el árabe o los caracteres de Asia?

Como está mencionando el artículo sobre Word Lens, intentaré responder en ese contexto.

Para hacer lo que Word Lens hace, tiene que hacer dos cosas, básicamente:

  • Reconoce lo que está escrito en lo que sea que estés tratando de traducir.
  • Traduzca ese fragmento de texto del idioma original al idioma de destino.
  1. Aprendiendo a leer

Cuando una computadora “lee” textos, lo que está haciendo es traducir la imagen de las letras a una representación que pueda entender. Eso es lo que llamamos reconocimiento óptico de caracteres.
(Reconocimiento óptico de caracteres). Como puede suponer, para convertir la imagen de la letra ‘A’ en una ‘A’ que la computadora puede entender, lo que hace es aprender qué formas representan cada letra para que cuando esas formas aparezcan en algún lugar, la computadora sepa lo que son.

El alfabeto occidental está compuesto, principalmente, por 26 letras más un par de signos de puntuación. Si toma francés, español, portugués y alemán, tendrá otro conjunto de unas 20 letras con signos diacríticos que deberán reconocerse. En japonés tendrás 2 alfabetos silábicos con 56 símbolos cada uno más 6000+ ideogramas (los llamados caracteres chinos). Eso hace 3 conjuntos diferentes de símbolos que necesitan ser reconocidos.

A estas alturas, es posible que haya obtenido una de las mayores diferencias: para
idiomas occidentales la computadora solo tiene que recordar 30 o 40 símbolos,
en cuanto a japonés tiene más de 6000 y puede duplicar eso para
Chino.

Si bien los alfabetos silábicos, conocidos como Hiragana y Katakana, son relativamente simples, Kanji puede ser tan simple como un palo horizontal para representar ‘uno’:
a formas tan complicadas como el ideograma a continuación, que significa ‘cabello’:

lo que hace que sea aún más difícil para la computadora aprender todos los patrones para que coincidan.

Ahora, uno podría pensar: ‘Como los ideogramas japoneses (así como los coreanos) vinieron de China, una vez que se hace chino, el resto es pan comido, ¿verdad?
Bueno no.
Muchos caracteres japoneses difieren de su equivalente original e incluso en el idioma chino, tiene dos conjuntos diferentes de ideogramas: los caracteres chinos tradicionales y simplificados con su uso dependiendo de la región:
(Lea más en Wikipedia: http://www.mapquest.com/?version…)

Lo sorprendente de Word Lens es que está haciendo OCR en tiempo real. Como se menciona en el artículo, normalmente el OCR se realiza en imágenes y no en dispositivos con poca potencia como teléfonos celulares. Lo más parecido que he visto es un teléfono celular japonés con una aplicación de diccionario donde puedes tomar una foto de un kanji y te devolverá la entrada en el diccionario para ese kanji.

2. ¿Qué es una palabra?

Digamos que definimos el tema anterior y nuestra aplicación ahora es lo suficientemente inteligente como para reconocer lo que pueda venir.

Word Lens, por simplicidad, utiliza la forma más trivial de traducción automática: traduce palabra por palabra, espere expresiones bien conocidas como ‘Por favor’ ‘Por favor’.

Puede parecer obvio, pero para traducir una palabra de un idioma a otro debe saber dónde comienza y dónde termina una palabra.

En el mundo occidental, una palabra termina principalmente después de un espacio o puntuación y comienza desde la siguiente letra después de un espacio o al comienzo de una oración (es más complicado que esto, pero usemos esta regla simplificada). Los japoneses y los chinos no tienen ese concepto. No hay espacios, lo que dificulta determinar dónde termina una palabra y comienza la siguiente.

Como un simple ejemplo, la ‘Prueba de dominio del idioma japonés’ se escribe en japonés como:
La forma correcta de interpretar es:

  • Tres primeros ideogramas para ‘japonés’
  • Próximos dos para competencia
  • Los dos últimos para la prueba

Esos ideogramas también tienen significado por sí mismos y también podrían ser ‘cortados’ de las diferentes maneras que hacen que la traducción carezca de sentido.

Para abordar ese problema, existe una técnica llamada ‘Tokenización’.
de Wikipedia (http://joeylakey.co.uk/blog/2011…

La tokenización es el proceso de dividir una secuencia de texto en palabras, frases, símbolos u otros elementos significativos llamados tokens.

La tokenización aguda también se usa para el idioma occidental y no es trivial. La falta de separación entre las palabras en japonés y chino solo lo hace aún más complicado.
El japonés lo hace aún más complicado porque algunas palabras están compuestas no solo por un alfabeto, sino por dos, normalmente Kanji e Hiragana. Por ejemplo, la palabra felicidad se puede escribir como donde el primer símbolo es un kanji y el segundo Hiragana.

Estas diferencias más las limitaciones del entorno de producción (potencia de procesamiento del dispositivo, calidad de la cámara, entorno, etc.) dificultan aún más los idiomas occidentales para los idiomas asiáticos como el japonés y el chino.

Más sobre el procesamiento del lenguaje natural:
http://amzn.to/e7nnL4

Una introducción a la tokenización para aquellos con un poco de conocimiento sobre PNL:
http://bit.ly/h7Cdf3