¿Cómo los sistemas generales de inteligencia artificial como los de Deepmind persisten ‘recuerdos’ a largo y corto plazo respectivamente?

Vale la pena señalar que en este momento, nadie tiene un sistema de inteligencia general muy bueno. Incluso dentro del paradigma estrecho de los juegos de Atari, e incluso con respecto a lo que DeepMind ha hecho específicamente, hay varios algoritmos / agentes de aprendizaje diferentes que se han explorado. Y fuera de Atari, encontrarás aún más conjuntos de algoritmos. AlphaGo, por ejemplo, es bastante diferente de los enfoques utilizados en Atari, aparte del hecho de que ambos usan el “aprendizaje profundo” con cosas como redes convolucionales.

Dicho esto, hay una serie de formas diferentes por las cuales se podría decir que se administra la memoria que se está explorando. Quizás de la manera más general, las redes neuronales profundas (y otras formas de aproximación de funciones) administran la memoria al codificar propiedades sobre las observaciones en los pesos que se aprenden. La capacidad de predecir recompensas futuras a partir de pesos que se actualizaron a partir de la experiencia es un tipo de memoria y es efectivamente la forma de memoria a más largo plazo que utilizan estos sistemas.

Más allá de eso, muchos métodos modernos de aprendizaje de refuerzo profundo utilizan una base de datos más explícita de “repetición de experiencia”. De esta forma, las últimas n observaciones se almacenan exactamente y se recuperan durante el aprendizaje para actualizar los pesos de la red.

Algunos enfoques también utilizan redes neuronales que tienen una capa de “Memoria a largo plazo”, que es una forma de red neuronal recurrente. Esta capa se usa junto con “episodios” bien definidos que tienen un inicio y un final (marcados explícitamente para el agente). Lo que le permite al agente hacer es aprender a recordar propiedades específicas de antes en el episodio para facilitar su predicción de eventos dados con el contexto actual del mundo. Uno de los mejores ejemplos de dónde se usan los LSTM es en el procesamiento del lenguaje natural, porque para fundamentar lo que significa una palabra, a menudo tiene que recordar palabras que fueron estados anteriores en la oración o párrafo. Por ejemplo, saber que “ella” se refiere a Lisa, requiere recordar que Lisa se dijo anteriormente. También se han utilizado en entornos de aprendizaje de refuerzo en los que el agente solo puede ver instantáneas del mundo (por ejemplo, una imagen de cámara). Por ejemplo, puede ser importante recordar que viste una pared roja antes de darte la vuelta para que puedas averiguar dónde estás.

Finalmente, otra vía interesante de investigación que está comenzando a despegar son las máquinas neuronales de Turing, y DeepMind ha avanzado recientemente en este frente. En estos sistemas, la “red neuronal” está estructurada de manera similar a una computadora donde hay una memoria que se puede leer y escribir, y el agente tiene “acciones” que le permiten leer y escribir en ella. Durante el aprendizaje, el agente aprende cuándo tomar medidas para leer y escribir en la memoria, de modo que el agente tenga más flexibilidad para determinar “por sí mismo” qué recordar y cuándo recordarlo.

Por supuesto, también se están considerando otras direcciones, una vez más, no hay un solo mecanismo de inteligencia general de alta calidad en este momento, pero esperamos que estos ejemplos le den una idea del tipo de cosas que se están investigando.

La mente profunda no ha desarrollado la Inteligencia Artificial General.
La mente profunda ha desarrollado la inteligencia artificial aplicada.

La mente profunda utiliza varias técnicas de memoria. Se detallan en varios documentos en el siguiente enlace con búsqueda de palabras clave: Memoria

Publicaciones | Mente profunda

Hay varias formas de acceder, editar y administrar la memoria a largo plazo / a corto plazo.
La mente profunda todavía está experimentando y considerando una gama de opciones al igual que otras.

La memoria a largo / corto plazo en redes neuronales se detalla como:
Memoria a largo plazo a largo plazo – Wikipedia
Redes recurrentes

La arquitectura de la AGI (inteligencia general artificial) dictará cómo se forman y persisten los recuerdos. Algunos sistemas hacen una distinción de memoria a largo plazo / memoria de trabajo (a corto plazo). Otros sistemas (como el cerebro humano o el modelador piagetiano) no distinguen entre la memoria a corto y largo plazo, sino que tratan la memoria como un todo unido y la diferencian mediante la activación, que tiene algunas áreas que se activan mientras que el resto permanece inactivo. Puede leer más sobre este último enfoque en mi manuscrito, Construyendo mentes con patrones (DRAFT).

Hay un artículo de ellos sobre computación híbrida.

Estos descifran las estructuras de datos por sí mismos y luego colocan la base de datos a su alrededor.

También tienen el tipo de red anterior para el aprendizaje de una sola vez y se refieren a ellas como arquitecturas de aprendizaje junto con el deseo de tener una organización que pueda ser la más productiva en la investigación. Las noticias recientes fueron sobre aprender a leer los labios al mirar televisión y revisar los registros de salud nacionales para identificar condiciones.

Facebook tenía un documento alternativo sobre redes de entidades recurrentes (entnet) que no necesitaba una memoria externa y podía responder preguntas sobre historias con el objetivo de hacer predicciones.