¿Cuál es la principal diferencia entre el aprendizaje por refuerzo y el proceso de decisión de Markov?

Podríamos decir que no hay diferencia o podríamos decir que hay una gran diferencia, por lo que esto probablemente necesite una explicación.

El propósito de Reinforcement Learning (RL) es resolver un Proceso de decisión de Markov (MDP) cuando no conoce el MDP, en otras palabras, no conoce los estados que puede visitar y no conoce la función de transición de cada Estado.

Una forma de resolver este problema es aprender primero el MDP y luego resolverlo utilizando algoritmos como iteración de valores o iteración de políticas, ambos utilizando la ecuación de Bellman. El MDP se puede aprender simulando diferentes acciones de cada estado hasta que tenga un alto grado de confianza en la función de transición aprendida y la función de recompensa aprendida. Desafortunadamente, esto a menudo no es posible porque el MDP es demasiado grande o sería demasiado costoso aprender el MDP.

Los algoritmos RL como Q-Learning intentan hacer ambas cosas al mismo tiempo: aprender el MDP y resolverlo para encontrar la política óptima.

Para hacer eso, el algoritmo necesita resolver la compensación de exploración / explotación. Explorar significa probar acciones aleatorias, esto ayuda a descubrir el MDP subyacente. La explotación significa seguir la política óptima hasta ahora, esto ayuda a maximizar las recompensas.

Entonces, RL es una técnica para aprender un MDP y resolverlo para la política óptima al mismo tiempo.

El modelo de aprendizaje por refuerzo consiste en:

  1. Un conjunto de estados ambientales y de agentes S.
  2. Un conjunto de acciones A del agente.
  3. Políticas de transición de estados a acciones.
  4. Reglas que determinan la recompensa escalar inmediata de una transición.
  5. Reglas que describen lo que observa el agente.

Una tarea se define mediante un conjunto de estados, s∈S, un conjunto de acciones, a∈A, una función de transición de estado-acción,

T: S × A → S, y una función de recompensa, R: S × A → R. En cada paso de tiempo, el alumno (también llamado agente) selecciona una acción y, como resultado, recibe una recompensa y su nuevo estado. El objetivo del aprendizaje por refuerzo es aprender una política, un mapeo de estados a acciones, Π: S → A que maximiza la suma de su recompensa a lo largo del tiempo.

En el aprendizaje automático, el entorno se formula como un Proceso de decisión de Markov (MDP), ya que muchos algoritmos de aprendizaje de refuerzo para este contexto utilizan técnicas de programación dinámica. Por lo tanto, todo el entorno de refuerzo de aprendizaje se puede describir con un MDP.

Elementos de aprendizaje por refuerzo

Excepto por el agente y el entorno, tenemos cuatro subelementos del sistema de aprendizaje por refuerzo:

  1. Política: define la forma de comportarse del agente de aprendizaje en un momento dado.
  2. Función de recompensa: define el objetivo en el problema de aprendizaje por refuerzo.
  3. Función de valor: especifica lo que es bueno a largo plazo.
  4. Modelo del entorno (opcional): los modelos se utilizan para la planificación, por lo que nos referimos a cualquier forma de decidir un curso de acción al considerar posibles situaciones futuras antes de que realmente se experimenten.

Las recompensas son, en cierto sentido, primarias, mientras que los valores, como predicciones de recompensas, son secundarios. Sin recompensas, no podría haber valores, y el único propósito de estimar valores es lograr más recompensa.

El aprendizaje de refuerzo consiste en tratar de comprender la forma óptima de tomar decisiones / acciones para maximizar la recompensa R. Esta recompensa es una señal de respuesta que muestra qué tan bien le está yendo al agente en un paso de tiempo dado. La acción A que realiza un agente en cada paso del tiempo es una función tanto de la recompensa como del estado S , que es una descripción del entorno en el que se encuentra el agente. La asignación de los estados del entorno a las acciones es la política P. La política básicamente define la forma de comportamiento del agente en un momento determinado, dada una determinada situación. Ahora, también tenemos una función de valor V que es una medida de cuán buena es cada posición. Esto es diferente de la recompensa en que la señal de recompensa indica lo que es bueno en el sentido inmediato, mientras que la función de valor es más indicativa de lo bueno que es estar en este estado / posición a largo plazo. Finalmente, tenemos un modelo M que es la representación del agente del medio ambiente. Este es el modelo del agente de cómo cree que se comportará el entorno.

Lea el artículo completo Introducción al aprendizaje por refuerzo para conocer más sobre MDP y algunos ejemplos de la vida real del aprendizaje por refuerzo.

Además, comuníquese con nosotros para obtener más inteligencia artificial (IA), aprendizaje automático (ML), historias relacionadas con análisis en: blogs, estudios de casos, documentos de investigación

La primera respuesta explica casi todo, pero creo que falta una aclaración: los algoritmos RL generalmente suponen que es MDP, mientras que en muchas tareas del mundo real puede no ser el caso.