¿Por qué la devolución [matemáticas] G_t = R_ {t + 1} + \ gamma R_ {t + 1} + \ cdots [/ matemáticas] tiene la recompensa del siguiente paso?

Entiendo tu confusión. Los investigadores de la OMI aún no se han fijado en una sola convención para representar algunos de los elementos constitutivos del aprendizaje por refuerzo. A veces puedes ver el mismo libro / papel / conferencia usando convenciones ligeramente diferentes para representar la misma cosa, y a veces es un poco confuso.

Por lo tanto, para responder la pregunta sobre las recompensas en esta conferencia, comprenda que el objetivo de un agente de aprendizaje de refuerzo es maximizar sus retornos, que son las recompensas acumuladas obtenidas al comenzar desde timestep [math] t [/ math].

Cuando el agente realiza una acción en un paso de tiempo [math] t [/ math], el entorno luego pasa a otro estado. Las recompensas obtenidas serían solo en el siguiente paso de tiempo [matemáticas] t + 1 [/ matemáticas], después de la transición. Por lo tanto, los retornos también se medirían a partir del siguiente paso de tiempo, que es cuando el agente realmente comienza a acumular recompensas.

Estas recompensas obtenidas dependen de una combinación de estados y acciones (implícitamente). En las conferencias CS229, la convención parece ser escribir la recompensa en notación funcional completa, como [math] R (s_i, a_i) [/ math], con [math] s_i [/ ​​math] y [math] a_i [/ math] siendo los estados y acciones en el paso de tiempo [math] i [/ math]. Los retornos al comenzar desde el estado [math] s_0 [/ math], se pueden escribir en esta convención como la suma de las recompensas obtenidas después de la transición a estados posteriores, y matemáticamente como [math] R (s_1, a_1) + \ gamma R ( s_2, a_2) + \ cdots [/ math]

En resumen, ambos representan lo mismo.

La notación de paso de tiempo solo representa una forma perezosa de escribir recompensas y retornos, sin mencionar explícitamente los pares de estado-acción por nombre.

Por cierto, la notación en la conferencia tampoco significa que haya transcurrido estrictamente 1 segundo entre cada acción posterior, sino que representa una cantidad de tiempo que pasa. El tiempo real transcurrido entre actualizaciones está determinado por la frecuencia de actualización que eligió para su agente.

(Nota: la pregunta también tiene un pequeño error. El segundo término que se multiplica por [math] gamma [/ math] en la secuencia de devoluciones debe ser [math] R_ {t + 2} [/ math].)

No he tomado CS229, no puedo decirlo con certeza, pero los rendimientos en el contexto del aprendizaje por refuerzo pueden describirse como las “recompensas potenciales”.

Esto se debe a que el retorno de una acción calcula las recompensas de los posibles pasos de tiempo futuro con una tasa de descuento de γ, porque no sabemos si el agente tomará esa acción, ya que esencialmente estamos prediciendo el futuro.

En otras palabras, tener solo la recompensa del siguiente paso sería codicioso, porque en Reinforcement Learning queremos mejorar el premio a largo plazo. Esto, al incluir todas las recompensas posibles futuras en la devolución, podemos calcular la verdadera adjudicación a largo plazo.

Espero que tenga sentido.

Si te refieres al hecho de que el subíndice de la recompensa parece ser 1 más alto de lo que debería ser, eso es simplemente una convención.

Algunas personas dicen que recibes la recompensa cuando entras en el estado, también conocido en el subíndice R t. Otros dicen que la recompensa llega en el momento en que sale del estado.

Usar cualquiera de los dos es matemáticamente equivalente. Realmente es exactamente cómo piensas lógicamente sobre las funciones de recompensa.

More Interesting

Cómo calcular gradientes en una red neuronal de avance utilizando matrices

¿Hay algún artículo que justifique la normalización de los valores de los elementos en los sistemas de recomendación?

¿Qué significa para una red neuronal ser entrenada de extremo a extremo?

¿Cuál es una explicación intuitiva para el equilibrio de sesgo-varianza?

¿Se pueden mapear los datos de entrada circulares (como la fase de una sinusoide) en un espacio de características lineales usando un núcleo lineal usando SVM? Si no, ¿qué núcleo es óptimo para datos de entrada circulares?

¿Cuáles son las diez mejores universidades del Reino Unido para obtener un doctorado en inteligencia artificial o aprendizaje automático?

¿Cuánto tiempo tomará aprender Python para que pueda aprender el aprendizaje automático?

¿Cuáles son los algoritmos principales detrás de Google Translate?

¿Cómo se compara Caffe 2 con TensorFlow?

¿Cuáles son las cosas más difíciles o problemáticas para los ingenieros de Machine Learning / Deep Learning?

¿Cuáles son los beneficios de convertir una capa totalmente conectada en una red neuronal profunda a una capa convolucional equivalente?

¿La red neuronal profunda es realmente un aprendizaje profundo?

¿Existen aplicaciones prácticas útiles y serias de redes neuronales que se ejecutan localmente en aplicaciones de teléfonos inteligentes móviles?

¿Qué algoritmo de aprendizaje automático debo usar cuando tengo 5-6 valores categóricos independientes y 1 variable continua dependiente?

¿Cuáles son algunas aplicaciones actuales de las redes neuronales convolucionales además del análisis de imagen, video y discurso?