Cómo probar la ecuación en el documento de aprendizaje de refuerzo de búsqueda de políticas de Sutton

Si se refería a esta ecuación, trataría de probarla utilizando la definición del valor esperado de una variable aleatoria.

Primero, tratemos de entender lo que significa. El agente se coloca en un entorno estocástico y sigue la política estocástica π. Queremos estimar qué tan buena es la política π. Una forma de hacerlo es calculando la recompensa promedio esperada que obtiene el agente al seguir esta política durante infinitos pasos.

En el lado izquierdo, [math] r_1 + r_2 +… + r_n [/ math] es una variable aleatoria que representa la suma de las recompensas recibidas siguiendo la política π. Su valor cambiará según las asignaciones aleatorias actuales de las distribuciones de política y transición de estado. Para deshacernos de la aleatoriedad, utilizaremos el valor esperado de la suma. Como queremos el promedio, la suma esperada de recompensas debe dividirse por el número de pasos (a medida que se acercan al infinito).

Ahora en el lado derecho, la recompensa esperada se calcula como el promedio ponderado por la probabilidad de todas las recompensas posibles (a partir de la definición del valor esperado de una variable aleatoria). Intuitivamente, itera sobre todos los estados posibles y todas las acciones posibles y las recompensas de sumas recibidas en esas transiciones multiplicadas por su probabilidad. Debería quedar claro que ambos lados de la ecuación son iguales, solo formulados de manera diferente.

Si eres nuevo en el aprendizaje por refuerzo, recomendaría el curso RL de David Silver. Personalmente, me pareció útil entender primero RL en el entorno determinista.

Related Content

¿Cómo reconoce la red neuronal convolucional los objetos de las imágenes sin la percepción o reconocimiento 3D?

¿Dónde se puede usar la visión computacional en el aprendizaje profundo?

Cómo mejorar en Machine Learning y PNL

¿Cómo escriben las personas pruebas automatizadas para sus algoritmos estocásticos?

¿Cómo son los cursos en edX sobre aprendizaje automático, ingeniería artificial y robótica para el empleo?

En SSL y TLS, ¿por qué hay un Protocolo de especificaciones de cifrado de cambio separado en lugar de incluir un mensaje change_cipher_spec en el Protocolo de protocolo de enlace?

¿Puede la inteligencia artificial (en cualquier forma) reemplazar el poder del hombre de manera eficiente? ¿O solo estamos construyendo castillos en el aire?

More Interesting

Cómo configurar las dimensiones de la capa y la conectividad en Caffe para reproducir una CNN a partir de un trabajo de investigación

¿El aprendizaje profundo ha vuelto obsoletos los métodos del núcleo?

Cómo manejar múltiples funciones usando SVM en visión artificial

¿Qué enfoques / regulaciones se utilizan para manejar el 'problema mínimo / máximo local' cuando se usa el descenso de gradiente con redes neuronales profundas?

¿Cómo funciona el algoritmo EM para un modelo mixto que factoriza según un modelo Naive-Bayes?

¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?

Cómo probar un conjunto de datos no se puede clasificar

¿Hay algún lugar para ingenieros de software que no aprendan IA o Machine Learning en los próximos 10 años o todos tienen que aprenderlo?

¿El descenso de gradiente de lote completo, con potencia de computadora ilimitada, es siempre mejor que el descenso de gradiente de mini lote?

¿Qué es una red neuronal deconvolucional?

¿Una máquina de máquina virtual de big data ayuda a analizar archivos grandes?

Cómo especificar si quiero ejecutar una función de paquete Caret para clasificación o regresión

Cómo aprender el aprendizaje automático desde el nivel cero

Si el generador y el discriminador usan SGD en Redes Adversarias Generativas, ¿por qué el entrenamiento de adversarios se llama no supervisado?

¿Quién es el mejor científico de aprendizaje automático del mundo?

Web Analytics