El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto?

Como referencia, este es el banco de pruebas de 10 brazos de la sección 2.2: 2.2 Métodos de acción y valor

El autor no usa el término juicio directamente. Cada una de las 1000 jugadas es en realidad una prueba. Dice 2000 tareas . Cuando el autor se refiere a 2000 tareas, se trata del mismo experimento que se realiza 2000 veces individuales. Por lo tanto, cada jugada individual (de las 1000) se lleva a cabo 2000 veces, y las gráficas son los promedios de los resultados de 2000 para cada jugada, es decir, el promedio de los resultados de 2000 de la jugada 1, luego el promedio de los resultados de 2000 de la jugada 2.

La recompensa de cada jugada se promedia sobre las 2000 tareas para que la ley de los grandes números surta efecto y la recompensa converja al valor real.

Considere el gráfico que muestra el% de acción óptima tomada sobre las 1000 jugadas (pruebas). Observe cómo cada elección de epsilon tiende a originarse a partir del 10%; esto es fundamental. Digamos que generó aleatoriamente las 10 distribuciones normales a partir de la distribución normal estándar original N (0,1) como se mencionó. Esas 10 nuevas distribuciones (las acciones) ahora se usan en la primera jugada. Como no tiene información previa sobre la cual construir, su elección es esencialmente aleatoria y la probabilidad de seleccionar la acción óptima es 0.1, o 10%. No tiene sentido hablar sobre la recompensa promedio , o el porcentaje de acción óptima tomada, a menos que lo haga muchas veces. Entonces, lo que ves en el gráfico es el resultado de cada jugada, promediada en las 2000 tareas individuales. Está diciendo que en la primera jugada, aproximadamente 200 veces del 2000, se seleccionó la acción óptima, como se esperaba, ya que era la primera jugada.

Esto es más fácil de razonar de forma iterativa:

recompensas = …
optical_plays = …
para cada una de las 2000 tareas:
crear 10 XN (mu, 1) cuya media se extrajo de N (0,1)
por cada una de 1000 jugadas:
si es aleatorio <epsilon:
explorar
más
explotar

Observe cómo las recompensas y si se tomó o no el juego óptimo se almacenan globalmente. Los usas para generar los gráficos. Observe también cómo se recrean las distribuciones para cada tarea. Esas distribuciones se mantienen consistentes entre las 1000 jugadas, pero se crean recientemente para cada nueva tarea. Lo sabrás cuando lo hagas bien porque producirás aproximadamente los mismos resultados en el libro.

Espero que ayude.

More Interesting

¿Qué llamarías técnicas de aprendizaje no automático?

¿Qué tan difícil es el aprendizaje automático?

¿Qué ofrecen los chips Loihi de Intel con 'autoaprendizaje', 'núcleos neuromórficos' y 'cómputo de aumento asíncrono'?

¿Cuál es la mejor manera de combinar datos clínicos y de imagen en un enfoque de aprendizaje profundo?

¿Cuál es el ejemplo de código más simple para redes neuronales recurrentes (RNN) en TensorFlow?

¿Wesleyan tiene un buen departamento de química / bioquímica?

¿Cómo afectarán herramientas como BigML y Google Prediction API al aprendizaje automático? ¿Reducirá la demanda de científicos de datos?

¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?

Cómo escribir un buen artículo sobre aprendizaje profundo o reforzar el aprendizaje sin la ayuda de un supervisor profesional

¿Es posible generar datos de expresión genética artificial? Las imágenes a veces se pueden perturbar para aumentar el tamaño de las muestras con fines de aprendizaje automático.

Cómo hacer que una máquina entienda el texto del lenguaje natural a través de Python

¿Por qué NP = P es tan difícil de resolver?

¿Cuáles son algunas ideas interesantes para un proyecto de investigación en procesamiento de lenguaje natural y / o traducción automática?

¿Cuál es la mejor manera de implementar mi algoritmo de reducción de dimensiones?

¿Cuáles son los conjuntos de datos beneficiosos para el análisis de sentimientos de Twitter como proyecto de análisis de datos?