Yoshua Bengio: ¿Cómo funcionan los modelos de lenguaje neural?

Un modelo de lenguaje

Una manera simple de ver cualquier modelo de lenguaje abarca su uso y los problemas que resuelve. Tal modelo de lenguaje debería contener las formas comunes de lenguaje, incluyendo el habla, la escucha, la lectura y la escritura. Puede desarrollar la facilidad del lenguaje mediante la aplicación directa de la biología común. Esta vista identifica al agente de la máquina como la emulación del agente biológico u organismo. Implica que la máquina tiene sistemas sensoriales para interactuar con otros agentes de la máquina o agentes humanos, y actuadores para realizar acciones, ya sea que empleen el dominio virtual o físico.

Un modelo de máquina

La máquina se encuentra en el hardware y su programación es necesaria para controlar la electricidad y aplicar energía. Transforma la corriente eléctrica de la fuente de energía al hardware de la máquina, que a su vez interactúa con la abstracción del software. La máquina tiene un mecanismo de entrada y salida para absorber el entorno o el agente que interactúa, y también la codificación para procesar y almacenar el trabajo en la memoria. Cualquier salida e interacción del agente de la máquina se realiza en el mismo dominio virtual o físico. Los agentes que identifican humanos o máquinas interactúan y se comunican con sistemas sensoriales elementales.

Una descripción de red neuronal

Una red neuronal aplica un modelo matemático que toma entradas y luego salidas. En la nomenclatura de la metodología de aprendizaje estadístico, la red neuronal realiza una tarea de aprendizaje supervisada, o más precisamente para su implementación, aplica un algoritmo. Este algoritmo puede ejecutarse en una máquina y su procesador, o en varias máquinas y sus procesadores. Pero independientemente de cómo se distribuya el trabajo, el proceso requiere memoria, distribuida de alguna manera. Con muchas máquinas requiere una jerarquía o esquema de memoria, para compartir toda la memoria que almacena el proceso y los cálculos, para lograr el objetivo, o la salida conjunta.

El caso de uso típico de las redes neuronales, incluso en paralelo, requiere que la entrada se transforme en capas o múltiples capas. En cada capa, la entrada entrante se transforma de alguna manera en la salida saliente. Con múltiples capas, esto significa sucesivas entradas-salidas hasta que la última capa salga o responda. El argumento para las redes neuronales emplea el hecho de que con muchas capas y partes dentro de cada capa, toda la red puede aproximarse a cualquier función, hasta un teorema y una prueba.

Se supone que la maquinaria para implementar el algoritmo puede ejecutar la primera entrada, activar las capas y dar la última salida, dentro del tiempo polinómico. Y, preferiblemente, la ejecución lleva el tiempo suficiente para el trabajo o el tiempo de trabajo de la persona.

Un modelo de lenguaje que emplea una red neuronal.

Debido a que el modelo de lenguaje sirve para propósitos, o ha identificado aplicaciones, el uso dirige cómo la entrada-salida o los datos y la respuesta, se aplica el algoritmo de aprendizaje. La tarea puede emplear una capacitación en corpus con los textos fuente relevantes.

  • Aplique la lectura automática para escribir pasajes dentro de la misma nomenclatura.
  • Aplique la lectura automática para leer un nuevo pasaje e identifique la similitud dentro de la nomenclatura o la prosa con el corpus fuente.
  • Tome preguntas dentro de algún formato, luego aplique un algoritmo de aprendizaje para recuperar información y luego responda la pregunta en lenguaje natural.
  • Tome el idioma de origen y luego aplique el algoritmo de aprendizaje para traducir a otro idioma, el objetivo.
  • Traduce entre el lenguaje humano de origen y el lenguaje de máquina de destino, y viceversa.

Todas esas tareas identificadas por un experto de dominio y humano, modelan la entrada y los datos, aplican el algoritmo de aprendizaje en caso de red neuronal y luego devuelven el resultado o la respuesta.