¿Cuál es la relación entre el aprendizaje por refuerzo y el aprendizaje contradictorio (por ejemplo, GAN)?

Este problema ha sido explorado en un artículo de NIPS por David Pfau y Oriole Vinayls (investigadores de Google).

[1610.01945] Conexión de redes adversas generativas y métodos críticos de actor

Intuitivamente, lo que muestra el documento es que las GAN están estrechamente relacionadas con un modelo de aprendizaje por refuerzo propuesto por mi colega de largo plazo de la UMass Andrew Barto llamado método de “actor crítico” (AC). En los métodos de CA, el agente realiza un seguimiento por separado de una política que guía el comportamiento (generalmente como una distribución paramétrica que proporciona la probabilidad de elegir alguna acción a en el estado s, o p (a | s; \ theta) donde \ theta es un vector de parámetros que especifican la distribución (por ejemplo, media, varianza, etc.). El agente también realiza un seguimiento de la función de valor que especifica qué tan buena es la política del actor. Sin embargo, hay mucho más en la historia de lo que se cuenta en este documento de NIPS. Sigue habiendo profundas diferencias entre los dos enfoques, resumidos a continuación.

El crítico en AC es como el discriminador en las GAN, y el actor en los métodos de AC es como el generador en las GAN. En ambos sistemas, hay un juego entre el actor (generador) y el crítico (discriminador). Cada uno comienza sin saber mucho. El actor comienza a tropezar en el espacio de estado, y el crítico no tiene idea de cómo evaluar el tipo de comportamiento aleatorio del actor. Y sin embargo, de estos inicios desesperados, el orden emerge del caos. Es difícil de creer, pero se puede demostrar formalmente que, en cualquier proceso de decisión de Markov, los métodos de AC eventualmente convergerán en la política óptima. La prueba no fue trivial y se mostró décadas después de que Barto, Sutton y Anderson publicaran el método AC original en 1983 en un artículo clásico. Este artículo original puede verse como el comienzo formal del trabajo en el aprendizaje por refuerzo computacional. Avance rápido 35 años, y Google Deep Mind utilizó el mismo algoritmo de CA combinado con aprendizaje profundo (una combinación simple de redes convolucionales y redes de retroalimentación) para resolver los difíciles juegos de Atari desde la entrada de video en bruto.

La prueba de que los métodos de CA convergen se mostró en una brillante tesis de maestría de Konda (Instituto Indio de Ciencia), quien más tarde realizó su doctorado en el MIT (bajo John Tsitsiklis). La tesis doctoral de Konda sobre los métodos de actor crítico es un tour de force de las matemáticas, y no es para los pusilánimes, pero es un hermoso ejemplo de las matemáticas profundas en el aprendizaje por refuerzo. La tesis de maestría de Konda apareció como un artículo de revista en el SIAM Journal of Control and Optimization (junto con el coautor Vivek Borkar, quien fue pionero en la teoría de aproximación estocástica a dos escalas que subyace al algoritmo de actor crítico).

Algoritmos de aprendizaje de tipo crítico-actor para los procesos de decisión de Markov

Volviendo al lado GAN de la historia, lamentablemente no hay pruebas de convergencia de la arquitectura GAN. Nadie ha demostrado aún que las GAN, tal como se formularon originalmente, convergerán en un equilibrio (y la experiencia práctica lo confirma, ya que muchas personas que implementaron las GAN han descubierto que son notablemente volubles).

Se proporciona un rayo de esperanza en la idea de usar múltiples generadores y discriminadores, a diferencia de la GAN original, y en la modificación de la métrica de distancia original a la métrica llamada Earth Mover (o métrica de Wasserstein). Arora y col. han demostrado que una arquitectura llamada MIX-GAN con múltiples generadores y discriminadores puede alcanzar un equilibrio aproximado en condiciones bastante ajustadas. En la práctica, estas condiciones generalmente no se cumplen.

[1703.00573] Generalización y equilibrio en redes generativas adversas (GAN)

Dos estudiantes de doctorado míos mostraron en un artículo anterior que mantenerse cerca de múltiples discriminadores realmente mejora el rendimiento empírico (llamaron a esta arquitectura un “GMAN”, para la red generativa de múltiples adversarios). Este trabajo fue publicado este año en ICLR 2017.

[1611.01673] Redes generativas multi-adversarias

Volviendo a la conexión entre GAN y RL, sería interesante explorar si existen algoritmos de CA de tipo “multigenerador” y “multidiscriminador” análogos.

Finalmente, intuitivamente es bastante sorprendente que los métodos de CA (y empíricamente GAN) converjan en absoluto. Piénsalo por un minuto. Al principio, el actor no sabe nada y se tambalea. El crítico es igualmente despistado. Es como el “ciego guiando al ciego”. Ambos luchan por aprender y enseñarse mutuamente, pero sorprendentemente, la combinación finalmente aprende a comportarse de manera óptima en tareas complejas (como ha demostrado Google Deep Mind).

¿Tenemos arquitecturas de actores críticos dentro de nuestras cabezas? ¿Hay una parte del cerebro que corresponde a un módulo de “actor” y una parte separada del cerebro que actúa como el “crítico”? Hay algunas razones para pensar que esta arquitectura es biológicamente plausible. Es una idea extremadamente inteligente, y es un ejemplo del pensamiento altamente innovador de los primeros pioneros en el aprendizaje por refuerzo, que estaban explorando ideas décadas antes de ver cómo las aplicaciones prácticas se concretaban.

Hay dos tipos de enfoques de aprendizaje por refuerzo:

  1. Modelo basado en RL
  2. Modelo libre RL

Los enfoques basados ​​en modelos son los que contienen un modelo generativo.

  • Se pueden usar modelos generativos de datos de series temporales para simular futuros posibles. Dichos modelos podrían usarse para la planificación y para el aprendizaje por refuerzo de varias maneras. Un modelo generativo utilizado para la planificación puede aprender una distribución condicional sobre los estados futuros del mundo, dado el estado actual del mundo y las acciones hipotéticas que un agente podría tomar como entrada. El agente puede consultar el modelo con diferentes acciones potenciales y elegir acciones que el modelo predice que probablemente producirán el estado deseado del mundo.
  • Otra forma en que los modelos generativos podrían usarse para el aprendizaje de refuerzo es permitir el aprendizaje en un entorno imaginario, donde las acciones erróneas no causen un daño real al agente. Los modelos generativos también se pueden usar para guiar la exploración haciendo un seguimiento de la frecuencia con la que se han visitado diferentes estados o se han intentado diferentes acciones anteriormente. Los modelos generativos, y especialmente los GAN, también se pueden usar para el aprendizaje de refuerzo inverso.

Referencia: Redes Adversarias Generativas