¿Podemos usar el algoritmo de aprendizaje de refuerzo Q-learning para hacer frente a los nuevos estados del entorno creados?

Los factores Q se estiman en línea para cada transición (s, a, s ‘). Si se crean nuevos estados, entonces las probabilidades de transición de estado p (s ‘| s, a) pueden cambiar y, por lo tanto, los antiguos factores Q también cambiarán.

Si los estados se crean durante un período de tiempo (es decir, no se crea ningún estado nuevo después de un tiempo T), y Q-learning se ejecuta durante el tiempo suficiente (t >> T), entonces los factores Q se actualizarán a la derecha valores (es decir, incluidos los nuevos estados).

Sin embargo, si los nuevos estados se crean a menudo y de manera continua, y estos nuevos estados son relevantes en el sentido de que pueden cambiar repentinamente la estructura de la función de recompensa, entonces Q-learning puede no ser capaz de adaptarse al espacio de estado continuamente cambiante.

En otras palabras, el problema de agregar nuevos estados es que el MDP cambia, por lo que termina con un nuevo problema con cada nuevo estado. Si se agregan nuevos estados antes de que converja Q-learning, entonces los factores Q pueden no ser precisos.

Pero, incluso en este caso de agregar nuevos estados antes de la convergencia, puede ocurrir que cada nuevo MDP no sea muy diferente de los anteriores. Y lo que determina principalmente si los MDP son similares o no es la estructura de la función de recompensa para la matriz de transición de estado.

Permítanme ilustrar este caso con un ejemplo. Suponga que el espacio de estado real del problema es continuo y lo discretiza para utilizar Q-learning. Luego, suponga que aumenta continuamente la resolución de la cuadrícula, de modo que se crean nuevos estados. Si las funciones de transición y recompensa son suaves y cambian solo un poco con la nueva resolución, y (nuevamente) ejecuta Q-learning a una escala de tiempo más rápida que el proceso de zoom, entonces diría que Q-learning puede adaptar el Q- factores

Le sugiero que represente sus estados como vectores de características. Su algoritmo se aproxima a la función Q a partir de eso, por ejemplo, utilizando una red neuronal. Puede mostrar fácilmente nuevos estados al sistema. El aproximador de funciones puede generalizarse a nuevos estados que son similares a los conocidos, de modo que ya tiene una estimación razonable del valor Q para ellos. Eso es, por ejemplo, lo que hace DQN para jugar juegos de Atari. Sus estados son los píxeles de la pantalla, y puede reproducirse incluso si no veía la pantalla actual antes.

NO para los algoritmos que usan la tabla para almacenar / buscar el valor de cada estado. La razón es que el estado recién creado no está en la tabla y ninguna experiencia capacitada puede ayudar.

Sí, para los algoritmos que usan la función o la red neuronal para aproximar los valores, bajo el supuesto de que la función es una buena aproximación de todos los estados.

Para resumir lo que dijo Sergio en una o dos oraciones:

sí, podemos hacerlo, pero solo si el nuevo par de acciones de estado tiene tiempo suficiente para que su valor q converja (solo es posible si la adición de estado no se realiza de forma continua y se restringe después de un tiempo para garantizar un aprendizaje adecuado).

La condición más importante para que el valor Q alcance un valor óptimo es que:

Todos los pares de acciones estatales deben visitarse infinitamente (es decir, muchas veces) durante el aprendizaje a través del juego personal.