¿Cómo se calcula el refuerzo? La tecnología cambia la vida futura

Como saben, el refuerzo de aprendizaje (RL) está aprendiendo de la interacción.

En RL, un agente interactúa con su entorno en pasos de tiempo discretos, y el entorno es estocástico e incierto. A medida que el agente interactúa, su objetivo es maximizar la recompensa acumulativa en un horizonte temporal dado.

La experiencia de los agentes es una secuencia de observaciones [matemáticas] o_1, a_1, r_1 [/ matemáticas] y el estado total es un resumen de experiencias [matemáticas] s_t = f (o_1, a_1, r_1… a_ {t-1}, o_t , r_t) [/ math]

En cada momento [math] t [/ math], el agente realiza una acción y luego recibe una observación del entorno [math] o_ {t} [/ math], que generalmente también incluye la recompensa [math] r_ {t }[/matemáticas]. La recompensa suele ser un valor escalar y puede ser arbitrariamente poco informativo.

Después de tomar esta observación, el agente debe elegir una acción [math] a_ {t} [/ math] del conjunto de acciones disponibles. En función de la función de valor, aplica la acción en el entorno, que cambia el estado general, y pasa al siguiente paso de tiempo, que emite otra observación al agente [matemáticas] o_ {t + 1}, r_ {t +1} [/ matemáticas]

La función de valor que permitió al agente elegir una acción para realizar, es una predicción de una recompensa futura. O mejor dicho: “Dado el estado [matemáticas] s [/ matemáticas], cuánta recompensa se obtendrá de la acción [matemáticas] a [/ matemáticas]”

La forma en que calcula esta recompensa o valor de un estado se basa en la Política del agente, que es la función de comportamiento de los agentes. Hay muchas formas de elegir una política de agentes, que discutiremos más adelante. Pero una política es básicamente solo un mapa del Estado a la Acción, y puede ser determinista o estocástica.

Política determinista: [matemáticas] a = \ pi (s) [/ matemáticas]

Política estocástica: [matemáticas] \ pi (a | s) = \ mathbb {P} [a | s] [/ matemáticas]

El aprendizaje por refuerzo utiliza la teoría de MDP (procesos de decisión de Markov), y hay un par de enfoques para saber cómo tomar la siguiente acción, desde un estado dado.

Basado en modelos: es donde construimos un modelo del entorno y lo usamos para “mirar hacia adelante”. Esto está más cerca del aprendizaje supervisado que los otros métodos.

Basado en el valor, que estima la función de valor óptimo [matemática] V [/ matemática] [matemática] ^ * [/ matemática], para encontrar el valor máximo alcanzable bajo cualquier política [matemática] \ pi [/ matemática]

Basado en políticas : que es donde buscamos la política óptima [matemáticas] \ pi [/ matemáticas] iterativamente con fuerza bruta o con algoritmos genéticos. Con la esperanza de encontrar la política que logre la máxima recompensa. El problema con esto es que las políticas pueden ser infinitas y la variación puede ser demasiado grande.

La estimación de la función de valor es el método que cubriré aquí.

El valor de un estado dado [matemática] V ^ \ pi (s) [/ matemática], es el rendimiento esperado a partir de ese estado.

[matemáticas] V ^ {\ pi} (s) = E_ \ pi \ left \ {R_t | s_t = s \ right \} [/ math]

donde [math] R_t [/ math] es esencialmente …

[matemáticas] R_t = r_ {t + 1} + \ gamma r_ {t + 2} + \ gamma ^ 2r_ {t + 3} + \ gamma ^ 3r_ {t + 4}… \\ [/ matemáticas]

[matemáticas] = r_ {t + 1} + \ gamma (r_ {t + 2} + \ gamma r_ {t + 3} + \ gamma ^ 2r_ {t + 4} …) \\ [/ matemáticas]

[matemáticas] = r_ {t + 1} + \ gamma R_ {t + 1} \\ [/ matemáticas]

Así que eso…

[matemáticas] V ^ {\ pi} (s) = E_ \ pi \ left \ {R_t | s_t = s \ right \} = E_ \ pi \ left \ {r_ {t + 1} + \ gamma V ^ \ pi (s_ {t + 1) | s_t = s} \ right \} \\ [/ math]

El valor de realizar una determinada acción [matemáticas] Q ^ \ pi (s, a) [/ matemáticas] en un estado [matemáticas] s [/ matemáticas] según la política [matemáticas] \ pi [/ matemáticas] es el retorno esperado que comienza de ese estado, y tomando la acción.

[matemáticas] Q ^ {\ pi} (s, a) = E [r_ {t + 1} + r_ {t + 2} + r_ {t + 3} +… | s, a] [/ matemáticas]

El objetivo para el agente es obviamente encontrar la acción que produce el máximo valor / recompensa. [matemáticas] Q ^ * [/ matemáticas]

[matemáticas] Q ^ * (s, a) = \ smash {\ displaystyle \ max _ {\ pi}} Q ^ \ pi (s, a) [/ math]

Dicho visualmente, básicamente se ve así …

En algunos casos, resulta demasiado costoso calcular el valor de todas las acciones posibles, por lo que a veces se utiliza un muestreo disperso.

Sin embargo, no voy a entrar en las matemáticas por eso.

Básicamente, para poner RL simplemente …

Puede visualizar el cerebro del agente, como una matriz de su memoria. La tabla Q representa la memoria de lo que el agente ha aprendido a través de sus experiencias.

Q se inicializa en 0. La matriz de recompensas se establece como R. (esta es la matriz de recompensas ambientales, o lo que desea que el agente logre, a dónde quiere que vaya)

[matemáticas] Q = \ begin {bmatrix} 0,0,0,0 \\ 0,0,0,0 \\ 0,0,0,0 \\ 0,0,0,0 \\ \ end {bmatrix }[/matemáticas]

Y a medida que aplica acciones (utilizando la función de valor como guía) e itera a través de los pasos de tiempo, el agente crea una imagen del entorno y, con suerte, alcanza su objetivo.

Ahora me doy cuenta después de escribir todo esto, que todavía no he respondido tu pregunta. Y eso se debe a que no es un tema tan simple, que simplemente se puede decir. “Aquí está la respuesta”

Por lo tanto, sugiero leer algunos documentos sobre él, o libros de texto, para obtener una mejor comprensión. Más de lo que puedo escribir aquí en Quora, sin que sea un libro de texto en sí mismo.

https://web.mst.edu/~gosavia/tut…

https://arxiv.org/pdf/1606.02647…

https://arxiv.org/pdf/1602.02867…

https://www.cs.toronto.edu/~vmni…

O la carga madre …

junhyukoh / papeles de aprendizaje de refuerzo profundo

O este gran tutorial en PDF, que básicamente cubre todo lo que necesitas saber cuando se trata de RL.

http://hunch.net/~jl/projects/RL…

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial