¿Cuál es la prueba de que la iteración de políticas converge en el aprendizaje por refuerzo?

Aquí hay una explicación simple. Consideremos un proceso de decisión finito de Markov (MDP), con un espacio de estado finito S, un espacio de acción finito A, dinámica invariante en el tiempo P y una función de recompensa fija R.

La iteración de políticas encuentra la política óptima, que está asociada con la función de valor óptimo, en un número finito de iteraciones porque, en cada iteración, la política cambia cada vez a través de las fases gemelas de la evaluación de políticas y la mejora de políticas. Se puede demostrar que en un MDP finito, si la política actual aún no es óptima, hay una mejora “local” de la política actual que se descubrirá en el paso de mejora de la política. La prueba original está en la clásica tesis doctoral de Howard sobre MDP de 1959, una disertación histórica en este campo. La tesis de Howard también introdujo el algoritmo de iteración de políticas por primera vez, y también se centró en el caso de la recompensa promedio.

Recuerde que solo hay un número finito de políticas “estacionarias” en un MDP finito (es decir, un mapeo fijo de S a A) y, por lo tanto, si mejora la política en cada paso, debe converger en un número finito de pasos .

Un tipo de prueba más sofisticado es introducir una métrica de distancia en funciones de valor en términos de algo llamado la “norma máxima” (la distancia entre dos funciones de valor es la mayor diferencia absoluta en valores entre V1 (s) y V2 (s), sobre todos los estados) Se puede demostrar que cada paso de la iteración de la política es una contracción en la norma máxima (es decir, la distancia entre la función de valor actual y la función óptima se reduce), a menos que ya haya descubierto la política óptima.

En el libro de Puterman sobre los procesos de decisión de Markov, así como las diversas “iteraciones” de los libros de Bertsekas sobre programación dinámica en las últimas tres décadas, se ofrece una discusión detallada del valor y la iteración de políticas.

Para el tratamiento más simple e intuitivo, recomiendo volver a la tesis de Howard. Él resuelve el problema del taxi en detalle, y siempre es refrescante para mí leer el documento original que introdujo una idea. Entonces, la tesis doctoral de Howard que introdujo el modelo MDP es, en mi humilde opinión, sin igual en este sentido.

Para el problema de control de horizonte infinito sobre MDP estacionario de estado finito, el algoritmo de iteración de políticas proporciona una secuencia de políticas estacionarias, de modo que la función de valor mejora en cada iteración.

La idea principal es mostrar que el operador de Bellman es monótono, de modo que la recursión iterativa es un mapeo de contracción.

Puedes consultar los detalles en:

  • Segundo. 1.3,2 del libro “Programación dinámica y control óptimo, volumen II” de D. Bertsekas.
  • Proposición 7.2.1 de la página en professeurs.polymtl.ca

More Interesting

¿Llegará un momento en que los humanos informarán a los robots inteligentes?

¿Cuáles son los mejores videos o cursos para aprender estadísticas para el aprendizaje automático?

¿Puede la IA predecir el mercado de valores en la India?

Cómo crear una startup en inteligencia artificial

¿Cómo juegan los conceptos de POO (en Python) un papel crucial en la resolución de problemas de aprendizaje automático?

¿Es la singularidad realmente un peligro para la humanidad?

Recientemente aprendí python. Encuentro la inteligencia artificial muy interesante ya que me encanta la codificación. ¿Qué sugieres que haga después para desarrollar un sistema de IA? Supongamos que conozco conceptos básicos como las redes neuronales y el árbol de decisiones.

¿Cuáles son los ejemplos más exitosos de música creada por computadora?

¿Qué tan cerca estamos de crear un programa de máquina tipo holodeck?

¿Cuál es la próxima gran novedad en la industria del software, aparte de la inteligencia artificial y la robótica?

¿Cómo ha cambiado Machine Learning la seguridad informática?

¿A qué distancia estamos de agentes verdaderamente inteligentes en nuestros dispositivos?

Supongamos que hay una red neuronal con 4 unidades ocultas y 1 capa oculta y otro NN con 2 capas ocultas, cada una con 2 unidades, ¿cuál es la diferencia?

¿Cuál es la próxima gran novedad en tecnología aparte de la IA y el automóvil sin conductor?

¿Cuál es la plataforma o herramienta más simple para practicar el aprendizaje automático (para principiantes)?