Cómo probar la ecuación en el documento de aprendizaje de refuerzo de búsqueda de políticas de Sutton

Si se refería a esta ecuación, trataría de probarla utilizando la definición del valor esperado de una variable aleatoria.

Primero, tratemos de entender lo que significa. El agente se coloca en un entorno estocástico y sigue la política estocástica π. Queremos estimar qué tan buena es la política π. Una forma de hacerlo es calculando la recompensa promedio esperada que obtiene el agente al seguir esta política durante infinitos pasos.

En el lado izquierdo, [math] r_1 + r_2 +… + r_n [/ math] es una variable aleatoria que representa la suma de las recompensas recibidas siguiendo la política π. Su valor cambiará según las asignaciones aleatorias actuales de las distribuciones de política y transición de estado. Para deshacernos de la aleatoriedad, utilizaremos el valor esperado de la suma. Como queremos el promedio, la suma esperada de recompensas debe dividirse por el número de pasos (a medida que se acercan al infinito).

Ahora en el lado derecho, la recompensa esperada se calcula como el promedio ponderado por la probabilidad de todas las recompensas posibles (a partir de la definición del valor esperado de una variable aleatoria). Intuitivamente, itera sobre todos los estados posibles y todas las acciones posibles y las recompensas de sumas recibidas en esas transiciones multiplicadas por su probabilidad. Debería quedar claro que ambos lados de la ecuación son iguales, solo formulados de manera diferente.

Si eres nuevo en el aprendizaje por refuerzo, recomendaría el curso RL de David Silver. Personalmente, me pareció útil entender primero RL en el entorno determinista.

More Interesting

Cómo configurar las dimensiones de la capa y la conectividad en Caffe para reproducir una CNN a partir de un trabajo de investigación

¿El aprendizaje profundo ha vuelto obsoletos los métodos del núcleo?

Cómo manejar múltiples funciones usando SVM en visión artificial

¿Qué enfoques / regulaciones se utilizan para manejar el 'problema mínimo / máximo local' cuando se usa el descenso de gradiente con redes neuronales profundas?

¿Cómo funciona el algoritmo EM para un modelo mixto que factoriza según un modelo Naive-Bayes?

¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?

Cómo probar un conjunto de datos no se puede clasificar

¿Hay algún lugar para ingenieros de software que no aprendan IA o Machine Learning en los próximos 10 años o todos tienen que aprenderlo?

¿El descenso de gradiente de lote completo, con potencia de computadora ilimitada, es siempre mejor que el descenso de gradiente de mini lote?

¿Qué es una red neuronal deconvolucional?

¿Una máquina de máquina virtual de big data ayuda a analizar archivos grandes?

Cómo especificar si quiero ejecutar una función de paquete Caret para clasificación o regresión

Cómo aprender el aprendizaje automático desde el nivel cero

Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?

¿Quién es el mejor científico de aprendizaje automático del mundo?