¿Cómo enseña IBM el idioma español Watson?

Watson Natural Language Processing (NLP) se basa en una tecnología llamada LanguageWare (hay una descripción bastante detallada de los recursos disponibles en LanguageWare aquí). LanguageWare proporciona las herramientas para analizar y “comprender” un idioma.

Hay solo algunas cosas que hacen que los idiomas sean diferentes entre sí … cosas como el conjunto de símbolos, el vocabulario, el guión (de izquierda a derecha, de derecha a izquierda, …), la estructura de las oraciones (como el orden de sujeto-verbo-objeto, que lleva mucho de un idioma a otro).

Enseñar el PNL, que por cierto es solo una parte de Watson, no es “Watson”, un nuevo idioma es una cuestión de enseñarle este tipo de fundamentos sobre el idioma para que el PNL pueda leer los símbolos, identificar las palabras y analizar la oración en los sustantivos, verbos, objetos, adjetivos, etc. Es una buena cantidad de trabajo, que implica una cantidad significativa de interacción de expertos humanos en el lenguaje de elección. Como enseñarle a un niño su primer idioma o aprender un nuevo idioma usted mismo.

La buena noticia es que el PNL solo necesita que se le enseñe una cosa una vez y lo recuerda. La mala noticia es que el lenguaje está lleno de inconsistencias y ambigüedades, por lo que simplemente “saber”, por ejemplo, que el inglés es principalmente un lenguaje sujeto-verbo-objeto – “John pateó la pelota” – no es suficiente, porque también necesita saber que “la pelota fue pateada por John” significa casi lo mismo. En algún momento, la máquina debe comenzar a cometer errores y las personas deben corregirlo.