Para responder a esta pregunta, revisemos los componentes de un MDP, el marco de toma de decisiones más típico para RL.
Un MDP se define típicamente por una tupla de 4 [matemática] (S, A, R, T) [/ matemática] donde
[matemáticas] S [/ matemáticas] es el espacio de estado / observación de un entorno
[matemáticas] A [/ matemáticas] es el conjunto de acciones que el agente puede elegir entre
[matemáticas] R (s, a) [/ matemáticas] es una función que devuelve la recompensa recibida por tomar medidas [matemáticas] a [/ matemáticas] en el estado [matemáticas] s [/ matemáticas]
[math] T (s ‘| s, a) [/ math] es una función de probabilidad de transición, que especifica la probabilidad de que el entorno pase al estado [math] s’ [/ math] si el agente toma medidas [math] a [/ math] en estado [math] s [/ math].
Nuestro objetivo es encontrar una política [matemática] \ pi [/ matemática] que maximice la recompensa futura (con descuento) esperada.
Ahora, si sabemos cuáles son todos esos elementos de un MDP, podemos calcular la solución antes de ejecutar una acción en el entorno. En IA, normalmente llamamos a la informática la solución a un problema de toma de decisiones antes de ejecutar una planificación de decisión real. Algunos algoritmos de planificación clásicos para MDP incluyen iteración de valor, iteración de políticas y mucho más.
Pero el problema de RL no es tan amable con nosotros. Lo que hace que un problema sea un problema de RL, en lugar de un problema de planificación, es que el agente * no * conoce todos los elementos del MDP, lo que le impide planificar una solución. Específicamente, el agente no sabe cómo cambiará el mundo en respuesta a sus acciones (la función de transición [matemáticas] T [/ matemáticas]), ni qué recompensa inmediata recibirá por hacerlo (la función de recompensa [matemáticas] R [ /mates]). El agente simplemente tendrá que intentar tomar medidas en el entorno, observar lo que sucede y, de alguna manera, encontrar una buena política para hacerlo.
Entonces, si el agente no conoce la función de transición [matemática] T [/ matemática] ni la función de recompensa [matemática] R [/ matemática], evitando que planifique una solución, ¿cómo puede encontrar una buena política? Bueno, ¡resulta que hay muchas maneras!
Un enfoque que puede sorprenderlo inmediatamente, después de enmarcar el problema de esta manera, es que el agente aprenda un modelo de cómo funciona el entorno a partir de sus observaciones y luego planifique una solución utilizando ese modelo. Es decir, si el agente se encuentra actualmente en estado [matemáticas] s_1 [/ matemáticas], toma medidas [matemáticas] a_1, [/ matemáticas] y luego observa la transición del entorno al estado [matemáticas] s_2 [/ matemáticas] con recompensa [matemáticas ] r_2 [/ math], esa información puede usarse para mejorar su estimación de [math] T (s_2 | s_1, a_1) [/ math] y [math] R (s_1, a_1) [/ math], que puede ser realizado utilizando enfoques de aprendizaje supervisado. Una vez que el agente ha modelado adecuadamente el entorno, puede usar un algoritmo de planificación con su modelo aprendido para encontrar una política. Las soluciones RL que siguen este marco son algoritmos RL basados en modelos .
Sin embargo, resulta que no tenemos que aprender un modelo del entorno para encontrar una buena política. Uno de los ejemplos más clásicos es el Q-learning , que estima directamente los valores Q óptimos de cada acción en cada estado (aproximadamente, la utilidad de cada acción en cada estado), de los cuales se puede derivar una política eligiendo la acción con El valor Q más alto en el estado actual. Los métodos de búsqueda de actores críticos y de políticas buscan directamente en el espacio de políticas para encontrar políticas que resulten en una mejor recompensa del medio ambiente. Debido a que estos enfoques no aprenden un modelo del entorno, se denominan algoritmos sin modelo .
Entonces, si desea una forma de verificar si un algoritmo RL está basado en modelos o no, hágase esta pregunta: después de aprender, ¿puede el agente hacer predicciones sobre cuál será el próximo estado y recompensa antes de tomar cada acción? Si puede, es un algoritmo RL basado en modelos. si no puede, es un algoritmo sin modelo.
Esta misma idea también puede aplicarse a los procesos de toma de decisiones que no sean MDP.