Entiendo tu confusión. Los investigadores de la OMI aún no se han fijado en una sola convención para representar algunos de los elementos constitutivos del aprendizaje por refuerzo. A veces puedes ver el mismo libro / papel / conferencia usando convenciones ligeramente diferentes para representar la misma cosa, y a veces es un poco confuso.
Por lo tanto, para responder la pregunta sobre las recompensas en esta conferencia, comprenda que el objetivo de un agente de aprendizaje de refuerzo es maximizar sus retornos, que son las recompensas acumuladas obtenidas al comenzar desde timestep [math] t [/ math].
Cuando el agente realiza una acción en un paso de tiempo [math] t [/ math], el entorno luego pasa a otro estado. Las recompensas obtenidas serían solo en el siguiente paso de tiempo [matemáticas] t + 1 [/ matemáticas], después de la transición. Por lo tanto, los retornos también se medirían a partir del siguiente paso de tiempo, que es cuando el agente realmente comienza a acumular recompensas.
- ¿Puede el aprendizaje reforzado aprovechar la memoria o transferir el aprendizaje?
- Al entrenar a un clasificador, ¿cómo trato con clases que tienen números muy diferentes de muestras en el conjunto de entrenamiento? ¿Cómo evito un ajuste excesivo en la clase que tiene la mayor cantidad de muestras?
- ¿Podemos combinar HOG y PCA en la clasificación de imágenes?
- ¿Cuál es la diferencia entre almacenar datos en HDF5 frente al formato TFRecord de TensorFlow?
- ¿Cuánto tiempo hasta que tengamos aviones autónomos, particularmente aviones de carga grandes y aviones de pasajeros?
Estas recompensas obtenidas dependen de una combinación de estados y acciones (implícitamente). En las conferencias CS229, la convención parece ser escribir la recompensa en notación funcional completa, como [math] R (s_i, a_i) [/ math], con [math] s_i [/ math] y [math] a_i [/ math] siendo los estados y acciones en el paso de tiempo [math] i [/ math]. Los retornos al comenzar desde el estado [math] s_0 [/ math], se pueden escribir en esta convención como la suma de las recompensas obtenidas después de la transición a estados posteriores, y matemáticamente como [math] R (s_1, a_1) + \ gamma R ( s_2, a_2) + \ cdots [/ math]
En resumen, ambos representan lo mismo.
La notación de paso de tiempo solo representa una forma perezosa de escribir recompensas y retornos, sin mencionar explícitamente los pares de estado-acción por nombre.
Por cierto, la notación en la conferencia tampoco significa que haya transcurrido estrictamente 1 segundo entre cada acción posterior, sino que representa una cantidad de tiempo que pasa. El tiempo real transcurrido entre actualizaciones está determinado por la frecuencia de actualización que eligió para su agente.
(Nota: la pregunta también tiene un pequeño error. El segundo término que se multiplica por [math] gamma [/ math] en la secuencia de devoluciones debe ser [math] R_ {t + 2} [/ math].)