Los factores Q se estiman en línea para cada transición (s, a, s ‘). Si se crean nuevos estados, entonces las probabilidades de transición de estado p (s ‘| s, a) pueden cambiar y, por lo tanto, los antiguos factores Q también cambiarán.
Si los estados se crean durante un período de tiempo (es decir, no se crea ningún estado nuevo después de un tiempo T), y Q-learning se ejecuta durante el tiempo suficiente (t >> T), entonces los factores Q se actualizarán a la derecha valores (es decir, incluidos los nuevos estados).
Sin embargo, si los nuevos estados se crean a menudo y de manera continua, y estos nuevos estados son relevantes en el sentido de que pueden cambiar repentinamente la estructura de la función de recompensa, entonces Q-learning puede no ser capaz de adaptarse al espacio de estado continuamente cambiante.
- ¿Cuál sería la mejor estrategia para implementar un motor de inteligencia artificial?
- Si el hombre alcanza la tecnología / inteligencia / IA / singularidad, la IA futura reiniciará un Big Bang, ¿es posible que seamos nuestros propios creadores?
- Cómo detectar mediante programación un sonido específico
- Cómo aplicar el aprendizaje automático con habilidades relacionadas con la neurociencia (similar al trabajo de Jeff Hawkins en neumata) en una aplicación relacionada con desastres
- ¿Cuáles son los problemas más interesantes en los que OpenAI está trabajando?
En otras palabras, el problema de agregar nuevos estados es que el MDP cambia, por lo que termina con un nuevo problema con cada nuevo estado. Si se agregan nuevos estados antes de que converja Q-learning, entonces los factores Q pueden no ser precisos.
Pero, incluso en este caso de agregar nuevos estados antes de la convergencia, puede ocurrir que cada nuevo MDP no sea muy diferente de los anteriores. Y lo que determina principalmente si los MDP son similares o no es la estructura de la función de recompensa para la matriz de transición de estado.
Permítanme ilustrar este caso con un ejemplo. Suponga que el espacio de estado real del problema es continuo y lo discretiza para utilizar Q-learning. Luego, suponga que aumenta continuamente la resolución de la cuadrícula, de modo que se crean nuevos estados. Si las funciones de transición y recompensa son suaves y cambian solo un poco con la nueva resolución, y (nuevamente) ejecuta Q-learning a una escala de tiempo más rápida que el proceso de zoom, entonces diría que Q-learning puede adaptar el Q- factores