Hay muchas respuestas diferentes según el dominio que esté viendo, qué tipo de propiedades de aprendizaje está tratando de examinar e incluso otros detalles sobre el agente (por ejemplo, tal vez su agente esté usando una política de exploración agresiva) y cuando lo evalúas, quieres usar una política más codiciosa). Dicho esto, una de mis parcelas preferidas que a menudo es útil es la gráfica de recompensa acumulativa.
En el gráfico de recompensa acumulativa, mide cuánta recompensa ha obtenido el agente hasta cada punto en el tiempo. A lo largo del eje x tiene tiempo y en el paso de tiempo n, el valor de y es la recompensa que el agente ha reunido (tanto positivo como negativo) desde el primer paso hasta el paso n. Cuando la tarea de aprendizaje es episódica, puede hacer que su eje x se repita en cada episodio, en lugar de cada paso de tiempo, pero aún así resumir la recompensa acumulativa de todos los pasos en episodios anteriores.
La imagen adjunta muestra un ejemplo * utilizando una de las herramientas de comparación de agentes de aprendizaje incluidas disponibles en BURLAP.
- ¿Cuál es la diferencia entre el aprendizaje por refuerzo y la optimización de caja negra?
- Intuitivamente, ¿cómo afecta el tamaño del mini lote al rendimiento del descenso de gradiente (estocástico)?
- ¿Cuál es la diferencia entre factorización y parametrización?
- ¿Cuál sería la arquitectura más apropiada para entrenar una red neuronal basada en dos imágenes de entrada?
- ¿Existe alguna directriz para diseñar redes neuronales en términos de número de capas ocultas, número de unidades ocultas, tamaño de filtro (CNN) y paso de tiempo (RNN)?
Entonces, ¿por qué es agradable esta trama? Algunas razones Primero, tiende a suavizar los resultados de una manera basada en principios (sin ventanas de suavizado arbitrarias). En segundo lugar, el valor de y en cualquier punto muestra un resumen de todo el trabajo de aprendizaje realizado para llegar allí. Por ejemplo, el agente de Q-learning en realidad está funcionando decentemente en el episodio 100 en la gráfica anterior, pero le tomó mucho tiempo hacerlo bien, lo que se ilustra claramente en comparación con el agente SARSA por cuánto más bajo es su valor está en el episodio 100 (lo que indica que acumuló menos recompensa total por el episodio 100). Al mismo tiempo, aún puede hacerse una idea sobre el rendimiento instantáneo mirando la pendiente de la curva en cualquier punto. Por ejemplo, a SARSA le está yendo bastante mal, peor que Q-learning, en los primeros 8 episodios, como lo demuestra la pendiente más negativa de su curva para cada uno de esos primeros episodios. Sin embargo, abruptamente comienza a funcionar muy bien, como lo demuestra su cambio a una pendiente positiva.
* Tenga en cuenta que este ejemplo no debe tomarse como una declaración general sobre la calidad de SARSA vs Q-learning. Este resultado es de un solo dominio con opciones de parámetros seleccionados con el fin de ilustrar una diferencia en el gráfico.