¿Cuáles son las principales diferencias entre la teoría de juegos y el aprendizaje por refuerzo?

El marco básico de aprendizaje de refuerzo implica interacciones entre un ‘agente’, es decir, el ‘alumno’ / ‘controlador’ y el ‘entorno’. El agente observa el estado del entorno y selecciona una acción. El entorno reacciona a la acción del Agente cambiando probabilísticamente su estado. El entorno interactúa con el Agente entregándole una cierta reacción que podría ser positiva (Recompensa) o negativa (Penalización o Costo).

Luego, el Agente observa el nuevo estado del entorno, selecciona nuevamente una acción y el proceso se repite. El objetivo del Agente es seleccionar una acción en cada instante teniendo en cuenta el estado del medio ambiente de manera que se maximice una recompensa a largo plazo. La reacción (Recompensa (+ ve) o Penalización (-ve)) que el agente recibe del entorno cuando selecciona una acción desempeña el papel de una señal de “refuerzo”.

Entonces, en términos generales, las actualizaciones del Agente son de naturaleza incremental, lo que resulta en algoritmos que convergen gradualmente a las estrategias óptimas.

Hay compensaciones relacionadas con el aprendizaje de refuerzo entre ‘exploración’ y ‘explotación’. El Agente puede seleccionar acciones que haya intentado anteriormente y que se haya encontrado que producen una alta recompensa. Sin embargo, al hacerlo, no estaría explorando acciones no probadas previamente que podrían resultar en una recompensa aún mayor. El agente necesita encontrar un equilibrio entre las acciones de explotación conocidas por otorgar grandes recompensas y explorar acciones más nuevas.

En el aprendizaje por refuerzo, las dos categorías generales: las que tratan el problema de la predicción y las que tratan el control. Es conveniente suponer que el controlador selecciona acciones de acuerdo con una política que es una regla de decisión que sugiere qué acción elegir en qué estado. En el problema de la predicción, uno está interesado en evaluar, en términos de la recompensa o el costo a largo plazo, el valor de una política determinada. En el problema del control, el objetivo es encontrar una política de control óptima.

La teoría de juegos, se originó con el artículo de Jon Von Neumann de 1928 sobre el juego de suma cero de 2 jugadores. La contribución de Nash en 1950 en el juego de N-Player, demostró la existencia del equilibrio.

Supongamos que hay jugadores, [matemáticas] a_1, a_2,…, a_ {i-1}, a_i, a_ {i + 1}… ..a_m [/ matemáticas]

Suponiendo que los miembros ‘m’ en el Juego, la acción del miembro ‘i’, está restringida por los otros miembros. Si el Estado social es A, entonces la utilidad del ‘i’ agente es

[matemáticas] f_i (a) = f_i (a_ {Mi}, a_i) [/ matemáticas]

[matemática] f_i (a ^ *) = [/ matemática] Máx. [matemática] \ hspace {1 mm} f_i (a ^ * _ {Mi}, a_i) \ hspace {2mm} [/ matemática] donde [matemática] \ hspace {2mm} a_i \ hspace {2mm} \ epsilon \ hspace {2mm} \ psi_i (a ^ *) [/ math]

[math] A_i [/ ​​math] es convexo, compacto y no está vacío

[math] \ psi_i [/ ​​math] tiene un valor convexo y es continuo

Podemos escribir una formulación extensa del problema de la teoría de juegos con ‘N’ Players y hacer que se parezca a la formulación de Reinforcement Learning, aunque haya algún cambio en el sabor de la formulación.

  1. Medición del cambio a lo largo del tiempo (aprendizaje de diferencia temporal) vs determinación del estado del mundo en ‘t’, donde el sistema alcanza el equilibrio.
  2. Espacio de estado infinito vs espacio de estado finito
  3. Problema de aprendizaje vs problema de planificación

Los puntos mencionados anteriormente son una especie de escasos detalles de andamios para construir, una abstracción para abarcar los detalles del problema en cuestión que se está formulando. En otras palabras, principalmente estructuras de lenguaje, que le informarán mejor cuál elegir, dependiendo de a quién esté formulando el problema, ya sea la comunidad de Aprendizaje por refuerzo / Aprendizaje automático / Inteligencia artificial o la comunidad Económica / Teoría de juegos / Álgebra lineal .

Como es habitual con estas cosas, las diferencias están relacionadas con la historia de los temas y los campos que originó.

Originalmente, el aprendizaje por refuerzo proviene de la biología (o de la motivación) y considera cómo un animal puede aprender cuando la única información que recibe es un refuerzo positivo / negativo.

La teoría de juegos originalmente proviene de la economía y considera las decisiones que toman varios agentes cuando compiten o colaboran con otros.

Entonces, una gran diferencia es que principalmente RL es una decisión de agente único y GT es una decisión de agente múltiple.

Luego hay pequeñas diferencias relacionadas con los usos más comunes. RL usa la decisión a través del tiempo, GT solo equilibra puntos. RL considera el espacio de estado infinito, GT considera los finitos. RL es un problema de aprendizaje (tienes que aprender el modelo del mundo) mientras que GT es un problema de planificación (ya conoces tu matriz de juego). Por supuesto, hay una excepción a todas estas diferencias menores.

Por ejemplo, es fácil demostrar que dos agentes que usan Q-Learning en un juego competitivo convergerán en los equilibrios de Nash de un juego.

Las estrategias, la acción y las recompensas son comunes tanto en la teoría de juegos como en el aprendizaje por refuerzo. En teoría del juego, el entorno o el espacio del juego no es tan grande, un jugador tiene una contribución directa para cambiar el estado de un juego. Pero en el aprendizaje por refuerzo, el entorno es tan grande que, por lo general, un jugador no puede cambiar el estado del entorno.