Yoshua Bengio: ¿Cómo funcionan los modelos de lenguaje neural? La tecnología cambia la vida futura

Un modelo de lenguaje

Una manera simple de ver cualquier modelo de lenguaje abarca su uso y los problemas que resuelve. Tal modelo de lenguaje debería contener las formas comunes de lenguaje, incluyendo el habla, la escucha, la lectura y la escritura. Puede desarrollar la facilidad del lenguaje mediante la aplicación directa de la biología común. Esta vista identifica al agente de la máquina como la emulación del agente biológico u organismo. Implica que la máquina tiene sistemas sensoriales para interactuar con otros agentes de la máquina o agentes humanos, y actuadores para realizar acciones, ya sea que empleen el dominio virtual o físico.

Un modelo de máquina

La máquina se encuentra en el hardware y su programación es necesaria para controlar la electricidad y aplicar energía. Transforma la corriente eléctrica de la fuente de energía al hardware de la máquina, que a su vez interactúa con la abstracción del software. La máquina tiene un mecanismo de entrada y salida para absorber el entorno o el agente que interactúa, y también la codificación para procesar y almacenar el trabajo en la memoria. Cualquier salida e interacción del agente de la máquina se realiza en el mismo dominio virtual o físico. Los agentes que identifican humanos o máquinas interactúan y se comunican con sistemas sensoriales elementales.

Una descripción de red neuronal

Una red neuronal aplica un modelo matemático que toma entradas y luego salidas. En la nomenclatura de la metodología de aprendizaje estadístico, la red neuronal realiza una tarea de aprendizaje supervisada, o más precisamente para su implementación, aplica un algoritmo. Este algoritmo puede ejecutarse en una máquina y su procesador, o en varias máquinas y sus procesadores. Pero independientemente de cómo se distribuya el trabajo, el proceso requiere memoria, distribuida de alguna manera. Con muchas máquinas requiere una jerarquía o esquema de memoria, para compartir toda la memoria que almacena el proceso y los cálculos, para lograr el objetivo, o la salida conjunta.

El caso de uso típico de las redes neuronales, incluso en paralelo, requiere que la entrada se transforme en capas o múltiples capas. En cada capa, la entrada entrante se transforma de alguna manera en la salida saliente. Con múltiples capas, esto significa sucesivas entradas-salidas hasta que la última capa salga o responda. El argumento para las redes neuronales emplea el hecho de que con muchas capas y partes dentro de cada capa, toda la red puede aproximarse a cualquier función, hasta un teorema y una prueba.

Se supone que la maquinaria para implementar el algoritmo puede ejecutar la primera entrada, activar las capas y dar la última salida, dentro del tiempo polinómico. Y, preferiblemente, la ejecución lleva el tiempo suficiente para el trabajo o el tiempo de trabajo de la persona.

Un modelo de lenguaje que emplea una red neuronal.

Debido a que el modelo de lenguaje sirve para propósitos, o ha identificado aplicaciones, el uso dirige cómo la entrada-salida o los datos y la respuesta, se aplica el algoritmo de aprendizaje. La tarea puede emplear una capacitación en corpus con los textos fuente relevantes.

Aplique la lectura automática para escribir pasajes dentro de la misma nomenclatura.
Aplique la lectura automática para leer un nuevo pasaje e identifique la similitud dentro de la nomenclatura o la prosa con el corpus fuente.
Tome preguntas dentro de algún formato, luego aplique un algoritmo de aprendizaje para recuperar información y luego responda la pregunta en lenguaje natural.
Tome el idioma de origen y luego aplique el algoritmo de aprendizaje para traducir a otro idioma, el objetivo.
Traduce entre el lenguaje humano de origen y el lenguaje de máquina de destino, y viceversa.

Todas esas tareas identificadas por un experto de dominio y humano, modelan la entrada y los datos, aplican el algoritmo de aprendizaje en caso de red neuronal y luego devuelven el resultado o la respuesta.