¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

Entiendo tu confusión. Los investigadores de la OMI aún no se han fijado en una sola convención para representar algunos de los elementos constitutivos del aprendizaje por refuerzo. A veces puedes ver el mismo libro / papel / conferencia usando convenciones ligeramente diferentes para representar la misma cosa, y a veces es un poco confuso.

Por lo tanto, para responder la pregunta sobre las recompensas en esta conferencia, comprenda que el objetivo de un agente de aprendizaje de refuerzo es maximizar sus retornos, que son las recompensas acumuladas obtenidas al comenzar desde timestep [math] t [/ math].

Cuando el agente realiza una acción en un paso de tiempo [math] t [/ math], el entorno luego pasa a otro estado. Las recompensas obtenidas serían solo en el siguiente paso de tiempo [matemáticas] t + 1 [/ matemáticas], después de la transición. Por lo tanto, los retornos también se medirían a partir del siguiente paso de tiempo, que es cuando el agente realmente comienza a acumular recompensas.

Estas recompensas obtenidas dependen de una combinación de estados y acciones (implícitamente). En las conferencias CS229, la convención parece ser escribir la recompensa en notación funcional completa, como [math] R (s_i, a_i) [/ math], con [math] s_i [/ math] y [math] a_i [/ math] siendo los estados y acciones en el paso de tiempo [math] i [/ math]. Los retornos al comenzar desde el estado [math] s_0 [/ math], se pueden escribir en esta convención como la suma de las recompensas obtenidas después de la transición a estados posteriores, y matemáticamente como [math] R (s_1, a_1) + \ gamma R ( s_2, a_2) + \ cdots [/ math]

En resumen, ambos representan lo mismo.

La notación de paso de tiempo solo representa una forma perezosa de escribir recompensas y retornos, sin mencionar explícitamente los pares de estado-acción por nombre.

Por cierto, la notación en la conferencia tampoco significa que haya transcurrido estrictamente 1 segundo entre cada acción posterior, sino que representa una cantidad de tiempo que pasa. El tiempo real transcurrido entre actualizaciones está determinado por la frecuencia de actualización que eligió para su agente.

(Nota: la pregunta también tiene un pequeño error. El segundo término que se multiplica por [math] gamma [/ math] en la secuencia de devoluciones debe ser [math] R_ {t + 2} [/ math].)

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial