¿Cuál es la diferencia entre el aprendizaje de refuerzo basado en modelos y sin modelos?

En el aprendizaje basado en modelos, el agente explota un modelo previamente aprendido para realizar la tarea en cuestión, mientras que en el aprendizaje sin modelos, el agente simplemente se basa en alguna experiencia de prueba y error para la selección de acciones.

Dayan y Niv (2008) explicaron un buen ejemplo intuitivo para distinguir entre el aprendizaje por refuerzo basado en modelo y sin modelo en su artículo “Aprendizaje por refuerzo: lo bueno, lo malo y lo feo” .

Asumir la tarea de decidir qué ruta tomar en el camino a casa desde el trabajo un viernes por la noche. En el cómputo basado en el modelo, busca a través de un modelo aprendido previamente (es decir, tiene un mapa y sigue cada ruta en función del modelo), mientras que en el cómputo sin modelo simplemente actúa basándose en una experiencia que sugiere evitar la autopista. Estás en casa más rápido.

Para responder a esta pregunta, revisemos los componentes de un MDP, el marco de toma de decisiones más típico para RL.

Un MDP se define típicamente por una tupla de 4 [matemática] (S, A, R, T) [/ matemática] donde

[matemáticas] S [/ matemáticas] es el espacio de estado / observación de un entorno
[matemáticas] A [/ matemáticas] es el conjunto de acciones que el agente puede elegir entre
[matemáticas] R (s, a) [/ matemáticas] es una función que devuelve la recompensa recibida por tomar medidas [matemáticas] a [/ matemáticas] en el estado [matemáticas] s [/ matemáticas]
[math] T (s ‘| s, a) [/ math] es una función de probabilidad de transición, que especifica la probabilidad de que el entorno pase al estado [math] s’ [/ math] si el agente toma medidas [math] a [/ math] en estado [math] s [/ math].

Nuestro objetivo es encontrar una política [matemática] \ pi [/ matemática] que maximice la recompensa futura (con descuento) esperada.

Ahora, si sabemos cuáles son todos esos elementos de un MDP, podemos calcular la solución antes de ejecutar una acción en el entorno. En IA, normalmente llamamos a la informática la solución a un problema de toma de decisiones antes de ejecutar una planificación de decisión real. Algunos algoritmos de planificación clásicos para MDP incluyen iteración de valor, iteración de políticas y mucho más.

Pero el problema de RL no es tan amable con nosotros. Lo que hace que un problema sea un problema de RL, en lugar de un problema de planificación, es que el agente * no * conoce todos los elementos del MDP, lo que le impide planificar una solución. Específicamente, el agente no sabe cómo cambiará el mundo en respuesta a sus acciones (la función de transición [matemáticas] T [/ matemáticas]), ni qué recompensa inmediata recibirá por hacerlo (la función de recompensa [matemáticas] R [ /mates]). El agente simplemente tendrá que intentar tomar medidas en el entorno, observar lo que sucede y, de alguna manera, encontrar una buena política para hacerlo.

Entonces, si el agente no conoce la función de transición [matemática] T [/ matemática] ni la función de recompensa [matemática] R [/ matemática], evitando que planifique una solución, ¿cómo puede encontrar una buena política? Bueno, ¡resulta que hay muchas maneras!

Un enfoque que puede sorprenderlo inmediatamente, después de enmarcar el problema de esta manera, es que el agente aprenda un modelo de cómo funciona el entorno a partir de sus observaciones y luego planifique una solución utilizando ese modelo. Es decir, si el agente se encuentra actualmente en estado [matemáticas] s_1 [/ matemáticas], toma medidas [matemáticas] a_1, [/ matemáticas] y luego observa la transición del entorno al estado [matemáticas] s_2 [/ matemáticas] con recompensa [matemáticas ] r_2 [/ math], esa información puede usarse para mejorar su estimación de [math] T (s_2 | s_1, a_1) [/ math] y [math] R (s_1, a_1) [/ math], que puede ser realizado utilizando enfoques de aprendizaje supervisado. Una vez que el agente ha modelado adecuadamente el entorno, puede usar un algoritmo de planificación con su modelo aprendido para encontrar una política. Las soluciones RL que siguen este marco son algoritmos RL basados ​​en modelos .

Sin embargo, resulta que no tenemos que aprender un modelo del entorno para encontrar una buena política. Uno de los ejemplos más clásicos es el Q-learning , que estima directamente los valores Q óptimos de cada acción en cada estado (aproximadamente, la utilidad de cada acción en cada estado), de los cuales se puede derivar una política eligiendo la acción con El valor Q más alto en el estado actual. Los métodos de búsqueda de actores críticos y de políticas buscan directamente en el espacio de políticas para encontrar políticas que resulten en una mejor recompensa del medio ambiente. Debido a que estos enfoques no aprenden un modelo del entorno, se denominan algoritmos sin modelo .

Entonces, si desea una forma de verificar si un algoritmo RL está basado en modelos o no, hágase esta pregunta: después de aprender, ¿puede el agente hacer predicciones sobre cuál será el próximo estado y recompensa antes de tomar cada acción? Si puede, es un algoritmo RL basado en modelos. si no puede, es un algoritmo sin modelo.

Esta misma idea también puede aplicarse a los procesos de toma de decisiones que no sean MDP.

Es lo mismo que ambos aprendizajes son para obtener la mayor recompensa de las acciones del agente.

El aprendizaje de refuerzo basado en modelos intenta inferir el entorno para obtener la recompensa, mientras que el aprendizaje de refuerzo sin modelos no utiliza el entorno para aprender la acción que resulta en la mejor recompensa.

El aprendizaje basado en modelos utiliza el entorno, la acción y la recompensa para obtener la mayor recompensa de la acción. El aprendizaje sin modelo solo usa su acción y recompensa para inferir la mejor acción.

El aprendizaje basado en modelos intenta modelar el entorno, y luego, basándose en ese modelo, elija la política más adecuada. El aprendizaje sin modelo intenta aprender la política óptima en un solo paso (por ejemplo, Q-learning).

Udacity tiene una divertida serie de conferencias que recomiendo sobre aprendizaje por refuerzo que habla sobre estos conceptos: Curso de aprendizaje automático sobre aprendizaje por refuerzo

RL basado en modelos construye un modelo del mundo, mientras que RL sin modelos intenta aprender directamente la mejor política.