¿Qué es el “aprendizaje de refuerzo de múltiples agentes”?

Como su nombre lo indica, es simplemente aprendizaje de refuerzo en un entorno multiagente (frente a un entorno de agente único como el perro de Pavlov).

Una buena descripción del campo:

Busoniu, Lucian, Robert Babuska y Bart De Schutter. “Una encuesta exhaustiva sobre el aprendizaje de refuerzo multiagente”. Systems, Man, and Cybernetics, Parte C: Aplicaciones y revisiones, Transacciones IEEE en 38.2 (2008): 156-172. (Enlace: Página en google.com)

Un sistema de múltiples agentes puede definirse como un grupo de entidades autónomas e interactivas que comparten un entorno común, que perciben con sensores y sobre el cual actúan con actuadores. Los sistemas multiagente encuentran aplicaciones en una amplia variedad de dominios, incluidos equipos robóticos, control distribuido, gestión de recursos, sistemas de soporte de decisiones colaborativos, minería de datos, etc. Pueden surgir como la forma más natural de ver el sistema, o pueden proporcionar una alternativa perspectiva sobre sistemas que originalmente se consideran centralizados. Por ejemplo, en equipos robóticos, la autoridad de control se distribuye naturalmente entre los

[…]

Un agente de aprendizaje por refuerzo (RL) aprende por interacción de prueba y error con su entorno dinámico. En cada paso de tiempo, el agente percibe el estado completo del entorno y toma una acción, lo que hace que el entorno pase a un nuevo estado. El agente recibe una señal de recompensa escalar que evalúa la calidad de esta transición. Esta retroalimentación es menos informativa que en el aprendizaje supervisado, donde el agente recibiría las acciones correctas para tomar (dicha información, lamentablemente, no siempre está disponible). Sin embargo, la retroalimentación de RL es más informativa que en el aprendizaje no supervisado, donde el agente se dejaría descubrir las acciones correctas por sí mismo, sin ninguna retroalimentación explícita sobre su desempeño.

Hay algoritmos bien entendidos con buenas propiedades de convergencia y consistencia disponibles para resolver la tarea RL de agente único, tanto cuando

el agente conoce la dinámica del entorno y la función de recompensa (el modelo de tarea) y cuándo no. Junto con la simplicidad y la generalidad del entorno, esto hace que RL sea atractivo también para el aprendizaje multiagente . Sin embargo, surgen varios desafíos nuevos para RL en sistemas multiagente. La principal de ellas es la dificultad de definir un buen objetivo de aprendizaje para los múltiples agentes de RL. Además, la mayoría de las veces cada agente de aprendizaje debe realizar un seguimiento de los otros agentes de aprendizaje (y, por lo tanto, no estacionarios). Solo así podrá coordinar su comportamiento con el de ellos, de modo que resulte un comportamiento conjunto coherente. La no estacionariedad también invalida las propiedades de convergencia de la mayoría de los algoritmos RL de agente único. Además, la escalabilidad de los algoritmos a tamaños de problemas realistas, que ya son problemáticos en el RL de agente único, es una causa aún mayor de preocupación en el aprendizaje de refuerzo multiagente (MARL).