¡Muchas veces, los MDP * están * formulados así! Cuando las personas escriben sobre MDP, tienden a elegir la formulación de la función de recompensa que hace que su notación matemática sea más fácil mientras siguen siendo correctas para lo que describirán. Sin embargo, la definición más “completa” de una función de recompensa es aquella que opera en un triple estado-acción-estado donde [matemáticas] R (s, a, s ‘) [/ matemáticas] indica la recompensa recibida cuando el agente toma medidas [matemática] a [/ matemática] en estado [matemática] s [/ matemática] y transiciones a estado [matemática] s ‘[/ matemática]. Las manipulaciones MDP estándar, como la ecuación de Bellman de la función de valor, están bien definidas para este caso: [matemática] V (s) = \ max_a \ sum_ {s ‘} T (s’ | s, a) \ left (R (s , a, s ‘) + \ gamma V (s’) \ right) [/ math].
Dado que las funciones de recompensa se pueden escribir en este triple, puede especificar absolutamente funciones de recompensa que dependen * solo * del siguiente estado (el [matemático] s ‘[/ matemático]) y eso se hace muy a menudo en la práctica.
Sin embargo, cualquier función de recompensa que dependa del siguiente estado puede reformularse como una que solo depende del estado y la acción anteriores. ¿Cómo? Al marginar sobre los siguientes estados según la función de transición:
- ¿Por qué las funciones de activación periódica (como el seno) no se usan comúnmente para redes neuronales?
- ¿Es probable que Trump pueda hacer que Apple invierta mucho en la fabricación en los Estados Unidos? ¿Por qué o por qué no?
- ¿Podría usarse la tecnología del cerebro a la computadora para entrometerse en la privacidad de los niños?
- ¿Cuáles son algunos argumentos filosóficos contra la prueba de Turing?
- ¿Qué diferencia exactamente una red neuronal recurrente de una red de alimentación directa con una ventana de tiempo limitado?
[matemáticas] R (s, a) = \ sum_ {s ‘} T (s’ | s, a) R (s, a, s ‘) [/ matemáticas]
Y cuando las personas están haciendo teoría matemática sobre MDP, las personas tienden a preferir la versión más corta ya que siempre se puede convertir un problema que depende del siguiente estado.