¿Qué avances adicionales son necesarios para tener una IA de conversación completa en cualquier dominio?

Un programa que puede aprender a realizar diversas tareas a partir de conversaciones mantenidas en un lenguaje natural.

Esta es la definición con la que la mayoría de los investigadores estaría de acuerdo.

Como no hay restricciones en las tareas o la arquitectura, me refiero a él como un “agente” y supongo que está confinado en algún tipo de entorno (¿no lo somos todos?). Oracle de Matrix es un buen ejemplo, aunque tiene una tarea principal.

La propagación hacia atrás [1] es fuerte con este …

Chico se encuentra con el mundo

El primer problema realmente difícil que requiere un “avance” es definir el procedimiento de capacitación. Cuando naces, tienes un “conjunto de instrucciones” básico que juega un papel clave en el desarrollo de tu cerebro. La característica única de los humanos es su capacidad innata para aprender y construir nuevos conocimientos sobre conocimientos previos . Las computadoras aún no pueden hacerlo, por ejemplo, tienen que rastrear todos los hechos relevantes registrados desde el principio cuando intentan inferir una respuesta a una tarea simple: “John trajo una pelota a la cocina. ¿Donde está la pelota?”.

Todos los bebés tienen un reflejo de agarre. Nadie les enseñó a agarrar, solo saben cómo hacerlo. Más tarde aprenden a manipular cosas con las manos utilizando su habilidad previa para agarrar cosas. Para recoger un poco de basura del suelo e intentar comerla, un niño necesita combinar algunas habilidades: ver, identificar, agarrar, jalar, comer. El procedimiento de entrenamiento que necesitamos aquí es una combinación especial (actualmente desconocida) de algoritmos que puede:

  1. Almacene las acciones elementales y pueda llamarlas
  2. Reconocer nuevas acciones.
  3. Combínalos de diferentes maneras

La parte conversacional en esta configuración es solo una descripción formal de la interfaz. Si su agente puede aprender de esa manera, aprender las palabras y su significado es solo cuestión de tiempo, por lo tanto, no me concentraría demasiado en esto. Puede asumir con seguridad que cualquier IA es una IA conversacional, o al menos con capacidad de aprender a hablar.

Suma de sus partes … y metadatos

Digamos que su agente ha aprendido a pronunciar varias palabras, pero nunca ha dicho una oración completa. No tiene el concepto de una oración. ¿Cómo se llega allí?

Esta es la primera parte del segundo problema. Enfoque de abajo hacia arriba, que infiere una solución para una tarea compleja cuando se conocen todas las soluciones para sus partes. La dificultad aquí es que no podemos interferir y dar el concepto de una oración de ninguna manera, porque de lo contrario el proceso de aprendizaje jerárquico [2] se romperá.

La segunda parte es aún peor. De hecho, es tan abrumadoramente difícil que incluso muchos coroanos la padecen. Aquí hay un ejemplo: “Quiero un trabajo en Google, no sé matemáticas ni programación, pero tengo tiempo y todos los recursos posibles. ¿Cómo divido mi tarea en tareas más pequeñas hasta que todas se vuelvan manejables para que se resuelva la tarea más grande?

Problema de abajo arriba (a la izquierda) y problema de arriba abajo (a la derecha)

A partir de ahora, no existe un algoritmo escalable para ninguno de estos problemas.

¿Qué hice mal?

Nuestro cerebro aprende creando y fortaleciendo las conexiones entre las neuronas. Su red es increíblemente compleja en sentido combinatorio, lo que nos permite almacenar una gran cantidad de recuerdos en forma de conexiones fortalecidas / debilitadas (esta es una simplificación general, pero bueno, si fuera un neurocirujano, no encontraría el momento para escribir esto). Para almacenar una nueva memoria, nuestro cerebro necesita información y estimulación : sin estimulación, el cerebro no se molesta, de lo contrario nos volveríamos locos.

Introducir este estímulo, incluso en forma de texto, es otro problema. Esencialmente, es la diferencia entre lo correcto y lo incorrecto, que nos inculcan las emociones: primero nuestros padres, luego el mundo entero que reacciona a nuestras acciones. Esta es una analogía del mundo real para una de las ideas centrales del aprendizaje por refuerzo [3] (explica por qué es tan popular ahora).

Una IA conversacional necesita que su valor se le comunique por texto sin decirle explícitamente cuán buena / mala fue la acción (por ejemplo, a través de una función de pérdida). Esencialmente, un maestro (supongo que es un humano) tiene que manipular el sustituto de la moral de la computadora para reforzar ciertos patrones.

… Solo moral. ” – Hannibal, S03E01

Se lo que no se

Lo último que veo como una parte muy importante es nuestra capacidad para reconocer una nueva experiencia, que es esencial en una conversación entre una computadora y un ser humano. La misma idea se puede expresar de muchas maneras diferentes y cada vez que la máquina debe reconocer el concepto correcto o aprenderlo como uno nuevo. En humanos, esto se hace en el hipocampo, cómo, nadie lo sabe.

Un diálogo entre dos computadoras tendría un vocabulario minimalista, aunque muy eficiente, pero no se vería como lenguaje natural. Tenemos muchas tareas técnicas como la resolución de coreferencia, pero un sistema NLP sofisticado no es inteligente, porque si le pide que haga algo nuevo, simplemente no entiende la consulta. Mientras que esperaría algo como …

“No te entiendo completamente, pero basado en lo que acabo de leer en Urban Dictionary …”

Eso sería al menos un comienzo.

Notas al pie

[1] Backpropagation – Wikipedia

[2] La Sociedad de la Mente: Marvin Minsky: 9780671657130: Amazon.com: Libros

[3] Aprendizaje de refuerzo

Sugeriría poder hacer un seguimiento de lo que han dicho. La mayoría de los bots de chat AI que están abiertos al público para hablar son completamente al azar y no parecen seguir lo que dices después de 5 oraciones como máximo.