El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto? La tecnología cambia la vida futura

El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto?

Como referencia, este es el banco de pruebas de 10 brazos de la sección 2.2: 2.2 Métodos de acción y valor

El autor no usa el término juicio directamente. Cada una de las 1000 jugadas es en realidad una prueba. Dice 2000 tareas . Cuando el autor se refiere a 2000 tareas, se trata del mismo experimento que se realiza 2000 veces individuales. Por lo tanto, cada jugada individual (de las 1000) se lleva a cabo 2000 veces, y las gráficas son los promedios de los resultados de 2000 para cada jugada, es decir, el promedio de los resultados de 2000 de la jugada 1, luego el promedio de los resultados de 2000 de la jugada 2.

La recompensa de cada jugada se promedia sobre las 2000 tareas para que la ley de los grandes números surta efecto y la recompensa converja al valor real.

Considere el gráfico que muestra el% de acción óptima tomada sobre las 1000 jugadas (pruebas). Observe cómo cada elección de epsilon tiende a originarse a partir del 10%; esto es fundamental. Digamos que generó aleatoriamente las 10 distribuciones normales a partir de la distribución normal estándar original N (0,1) como se mencionó. Esas 10 nuevas distribuciones (las acciones) ahora se usan en la primera jugada. Como no tiene información previa sobre la cual construir, su elección es esencialmente aleatoria y la probabilidad de seleccionar la acción óptima es 0.1, o 10%. No tiene sentido hablar sobre la recompensa promedio , o el porcentaje de acción óptima tomada, a menos que lo haga muchas veces. Entonces, lo que ves en el gráfico es el resultado de cada jugada, promediada en las 2000 tareas individuales. Está diciendo que en la primera jugada, aproximadamente 200 veces del 2000, se seleccionó la acción óptima, como se esperaba, ya que era la primera jugada.

Esto es más fácil de razonar de forma iterativa:

recompensas = …
optical_plays = …
para cada una de las 2000 tareas:
crear 10 XN (mu, 1) cuya media se extrajo de N (0,1)
por cada una de 1000 jugadas:
si es aleatorio <epsilon:
explorar
más
explotar

Observe cómo las recompensas y si se tomó o no el juego óptimo se almacenan globalmente. Los usas para generar los gráficos. Observe también cómo se recrean las distribuciones para cada tarea. Esas distribuciones se mantienen consistentes entre las 1000 jugadas, pero se crean recientemente para cada nueva tarea. Lo sabrás cuando lo hagas bien porque producirás aproximadamente los mismos resultados en el libro.

Espero que ayude.