¿Qué es la planificación del discurso? La tecnología cambia la vida futura

(* Por favor, corrige esta diatriba tú mismo; estoy cansado y perezoso *)

http://www.nytimes.com/2008/04/1…

Una persona tiene todo este conocimiento en su cabeza. ¿Cómo generan lenguaje a partir de ese conocimiento en respuesta a una pregunta? Por ejemplo, alguien te pide que cuentes una historia. Tiene esta red de relaciones entre entidades, como nombres y categorías. “Los osos son mamíferos”, “Jonathan Wu ha tenido 6 de sus compañías IPO”, y así sucesivamente. También puede codificar los eventos de orden ocurridos como una red de relaciones entre esos eventos.

Entonces, la pregunta es, dada su red de objetos y relaciones que almacena en su cabeza, ¿cómo produce un texto lineal a partir de esa información? Hay párrafos, oraciones, palabras y cada uno viene en secuencia uno después del otro. El texto es lineal. El conocimiento está codificado como una red de relaciones entre entidades.

Hay una ontología, que es el conjunto de objetos que existen. Hay memoria semántica, que es relaciones de categorías entre objetos; como “los perros son mamíferos”. Luego está la memoria episódica, que almacena información sobre las relaciones entre instancias de cosas en su ontología. La memoria semántica puede informarle sobre todos los perros o mamíferos, pero la memoria episódica almacena información sobre las instancias de perros que ha visto y lo que hicieron.

La memoria episódica y la memoria semántica son formas de memoria declarativa. También hay memoria de procedimiento, que almacena las reglas de producción que utiliza para manipular los datos y la razón. ¿Cómo se producen oraciones o respuestas dado su conocimiento existente y una entrada sensorial, como una pregunta “¿Dónde están las llaves del automóvil?”. La respuesta depende del contexto social, si su hijo de 12 años está buscando las llaves de su automóvil y tiene un historial de conducción imprudente, su respuesta será diferente a si la pregunta fue hecha por su esposa. Usamos memoria procesal y memoria declarativa para inferir la intención en otros y planear nuestro “discurso” o respuesta.

La memoria procesal y la memoria semántica son muy “subconscientes” en el sentido de que no podemos sondearlos ni realizar una introspección sobre ellos. Mientras que tenemos una buena capacidad introspectiva para la memoria episódica. Por ejemplo, sabemos cuándo no recordamos un hecho de conocimiento, como dónde están nuestras claves, pero a menudo no sabemos explícitamente cuándo estamos asignando la categoría semántica incorrecta a un objeto.

Hay una pregunta en la ciencia cognitiva acerca de cómo la arquitectura cognitiva humana codifica y procesa la información. Luego hay una pregunta sobre cómo podemos construir sistemas artificiales que codifiquen y procesen información con resultados similares al sistema cognitivo humano. Esto es similar a la diferencia entre las preguntas “¿Cómo procesa la mente humana el lenguaje natural?” y “¿Cómo podemos construir una máquina que procese lenguaje natural?”.

En general, construiríamos un sistema artificial desglosando las tareas que queremos hacer hasta que estén definidas de forma muy limitada y luego diseñando o encontrando algoritmos para cada subtarea. La planificación del discurso es solo el problema de generar lenguaje natural a partir de la información almacenada en otro sistema; ya sea una base de datos o dentro de los sistemas de memoria de una arquitectura cognitiva.

He estado leyendo sobre técnicas de IA de 30 años y me impresionó lo que pudieron hacer. Su única limitación era que cada nueva tarea que el sistema necesitaba manejar era algo que un estudiante graduado tenía que programar manualmente en LISP. El trabajo tradicional utilizaba “redes de gramática de transición aumentada” y generaba el texto de “Redes semánticas”. Incluso sin técnicas estadísticas o desambiguación, el rendimiento del sistema fue extremadamente bueno.

He estado estudiando ACT-R, que es una arquitectura cognitiva diseñada para modelar la cognición humana y me sorprendió la similitud entre las redes semánticas KRR de la vieja escuela y la memoria “basada en la activación de propagación” de la arquitectura cognitiva ACT-R. Estoy tratando de averiguar si hay una aplicación para estos sistemas hoy y para qué los usaría.

Por ejemplo, puede ser posible revisar varios artículos de Wikipedia, separar los artículos, extraer los objetos de los que tratan las oraciones y arrojar la información a una base de datos. Luego puede construir un sistema que responda preguntas utilizando información en la base de datos de información extraída de los artículos de texto. Creo que esto podría tener una aplicación para extraer información de documentos corporativos, producir un nuevo documento a partir de información existente, para un nuevo propósito. Por ejemplo, puede generar informes sobre proyecciones de ventas para un país determinado automáticamente o generar paneles personalizados a partir de la entrada de PNL.

Esto ya se está haciendo de forma limitada;
http://www.nytimes.com/2008/04/1…

Hay un par de personas interesadas en este problema, tal vez como máximo una docena. Todos están en la academia y casi sin ningún interés en la comercialización. Sus sistemas tienen una curva de aprendizaje demasiado empinada para que cualquiera pueda aprender y requieren la entrada manual de conocimientos en el sistema. También son principalmente programaciones lisp y acaban de descubrir GUI en los últimos cinco años. También desconocen casi por completo las técnicas estadísticas y de aprendizaje automático que necesitan para automatizar los aspectos no autónomos de sus sistemas. Por ejemplo, están agotados por los campos aleatorios condicionales. Algunos de ellos están tratando de externalizar la entrada de conocimiento a la India en lugar de utilizar técnicas de aprendizaje automático para automatizar la extracción de conocimiento.

Estoy haciendo un proyecto paralelo para aprender más sobre estos sistemas y explorar aplicaciones comerciales. Estoy tratando de averiguar si alguno de estos sistemas o técnicas podría ser la base de una empresa. Creo que todavía estamos a 20 años de ver aplicaciones comerciales, pero probablemente me tomará una década comprender estas técnicas, por lo que estoy comenzando temprano.

Me recuerda que Internet y los sistemas BBS existieron ya en la década de 1970, pero no alcanzaron la comercialización convencional hasta 1994 con el lanzamiento de Netscape Communicator. Los académicos habían estado enviando correos electrónicos durante décadas cuando la red informática ingresó a la corporación. Todavía estamos viendo avances y nuevas aplicaciones 40 años después; Facebook, Twitter, Youtube, Quora.

El período de gestación entre el momento en que una tecnología se hace posible y el momento en que llega a un mercado convencional es décadas. Estoy tratando de adquirir una participación temprana en esta área. Primero porque creo que será importante en el futuro, y segundo porque estas técnicas de KRR y aprendizaje automático complementan en gran medida otros proyectos a largo plazo en los que estoy trabajando.

Aprendizaje automáticoinformáticalingüísticaLingüística ComputacionalProcesamiento del lenguaje natural