Si se refería a esta ecuación, trataría de probarla utilizando la definición del valor esperado de una variable aleatoria.
Primero, tratemos de entender lo que significa. El agente se coloca en un entorno estocástico y sigue la política estocástica π. Queremos estimar qué tan buena es la política π. Una forma de hacerlo es calculando la recompensa promedio esperada que obtiene el agente al seguir esta política durante infinitos pasos.
- ¿Cómo es ser ingeniero de aprendizaje automático en Quora?
- ¿Cómo se explica el aprendizaje automático y la inteligencia artificial a un niño de 5 años?
- ¿Cuál es la diferencia entre ML y NLP?
- ¿Qué son los datos no paramétricos?
- ¿Cuáles son algunas aplicaciones interesantes de salud personalizada?
En el lado izquierdo, [math] r_1 + r_2 +… + r_n [/ math] es una variable aleatoria que representa la suma de las recompensas recibidas siguiendo la política π. Su valor cambiará según las asignaciones aleatorias actuales de las distribuciones de política y transición de estado. Para deshacernos de la aleatoriedad, utilizaremos el valor esperado de la suma. Como queremos el promedio, la suma esperada de recompensas debe dividirse por el número de pasos (a medida que se acercan al infinito).
Ahora en el lado derecho, la recompensa esperada se calcula como el promedio ponderado por la probabilidad de todas las recompensas posibles (a partir de la definición del valor esperado de una variable aleatoria). Intuitivamente, itera sobre todos los estados posibles y todas las acciones posibles y las recompensas de sumas recibidas en esas transiciones multiplicadas por su probabilidad. Debería quedar claro que ambos lados de la ecuación son iguales, solo formulados de manera diferente.
Si eres nuevo en el aprendizaje por refuerzo, recomendaría el curso RL de David Silver. Personalmente, me pareció útil entender primero RL en el entorno determinista.