Cómo medir el rendimiento de aprendizaje en Q-Learning

Hay muchas respuestas diferentes según el dominio que esté viendo, qué tipo de propiedades de aprendizaje está tratando de examinar e incluso otros detalles sobre el agente (por ejemplo, tal vez su agente esté usando una política de exploración agresiva) y cuando lo evalúas, quieres usar una política más codiciosa). Dicho esto, una de mis parcelas preferidas que a menudo es útil es la gráfica de recompensa acumulativa.

En el gráfico de recompensa acumulativa, mide cuánta recompensa ha obtenido el agente hasta cada punto en el tiempo. A lo largo del eje x tiene tiempo y en el paso de tiempo n, el valor de y es la recompensa que el agente ha reunido (tanto positivo como negativo) desde el primer paso hasta el paso n. Cuando la tarea de aprendizaje es episódica, puede hacer que su eje x se repita en cada episodio, en lugar de cada paso de tiempo, pero aún así resumir la recompensa acumulativa de todos los pasos en episodios anteriores.

La imagen adjunta muestra un ejemplo * utilizando una de las herramientas de comparación de agentes de aprendizaje incluidas disponibles en BURLAP.

Entonces, ¿por qué es agradable esta trama? Algunas razones Primero, tiende a suavizar los resultados de una manera basada en principios (sin ventanas de suavizado arbitrarias). En segundo lugar, el valor de y en cualquier punto muestra un resumen de todo el trabajo de aprendizaje realizado para llegar allí. Por ejemplo, el agente de Q-learning en realidad está funcionando decentemente en el episodio 100 en la gráfica anterior, pero le tomó mucho tiempo hacerlo bien, lo que se ilustra claramente en comparación con el agente SARSA por cuánto más bajo es su valor está en el episodio 100 (lo que indica que acumuló menos recompensa total por el episodio 100). Al mismo tiempo, aún puede hacerse una idea sobre el rendimiento instantáneo mirando la pendiente de la curva en cualquier punto. Por ejemplo, a SARSA le está yendo bastante mal, peor que Q-learning, en los primeros 8 episodios, como lo demuestra la pendiente más negativa de su curva para cada uno de esos primeros episodios. Sin embargo, abruptamente comienza a funcionar muy bien, como lo demuestra su cambio a una pendiente positiva.

* Tenga en cuenta que este ejemplo no debe tomarse como una declaración general sobre la calidad de SARSA vs Q-learning. Este resultado es de un solo dominio con opciones de parámetros seleccionados con el fin de ilustrar una diferencia en el gráfico.

Supongo que está entrenando a un agente de Q-learning en un MDP episódico con una recompensa a largo plazo con descuento.

Para cada estado, Q-learning devolverá una estimación de la acción que maximiza la recompensa a largo plazo. En otras palabras, obtiene una estimación de la política de comportamiento óptima.

Un enfoque estándar para evaluar una política en un MDP episódico con recompensa a largo plazo con descuento es realizar múltiples ensayos independientes con el agente que usa la política bajo evaluación.

Se evalúa una política para una distribución de estado inicial dada [math] D_0 [/ math]. Cada prueba proporcionará una cadena de transiciones de estado que comienza en algún estado extraído de la distribución del estado de inicio y finaliza cuando el agente alcanza un estado terminal (si el agente no alcanza un estado terminal, puede establecer un tiempo de espera, pero debe ten cuidado al respecto).

Luego, para cada prueba, puede sumar la recompensa obtenida en cada transición de estado en la cadena. Para ser más exactos, debe ponderar la recompensa por el exponente del factor de descuento en el intervalo de tiempo. Digamos que algunos episodios comienzan en el estado [math] s_0 \ sim D_0 [/ math] y terminan en el momento [math] T [/ math]. Entonces, el valor de recompensa acumulativa empírica debe calcularse como:

[matemáticas] V = r (s_0, a_0, s_1) + \ gamma r (s_1, a_1, s_2) + \ gamma ^ 2 r (s_2, a_2, s_3) + \ ldots + \ gamma ^ {T-1} r (s_ {T-1}, a_ {T-1}, s_T) \\ = \ sum_ {t = 0} ^ {T-1} \ gamma ^ {t} r (s_ {t}, a_ {t} , s_ {t + 1}) [/ matemáticas]

Tenga en cuenta que este valor de recompensa empírica es de hecho una estimación de la función de valor. De esta manera, asocia una estimación empírica de la función de valor para la política bajo evaluación con cada ensayo. Dado que las transiciones de estado son probabilísticas, cada prueba conducirá a una estimación diferente de la función de valor. Por lo tanto, termina teniendo un histograma que se aproxima a una distribución de valores para la función de valor para la política bajo evaluación. Este histograma es lo que utiliza para comparar políticas (por ejemplo, en función del promedio y la varianza, cuantiles, etc.).

eje x: iteración

eje y: recompensa esperada

More Interesting

¿Cómo se determina la significación estadística para las curvas ROC y los valores de AUC?

¿Cómo puede ayudar el conocimiento de un proceso estocástico, el movimiento browniano y un proceso de martingala con el aprendizaje profundo y la investigación del aprendizaje automático?

¿Debo usar juicios de relevancia explícitos o comentarios de clics implícitos para recopilar datos de capacitación para construir un modelo de Aprendizaje para clasificar?

¿Qué significa la afluencia de IA y Machine Learning en productos tecnológicos para los diseñadores de UX?

¿Realizar el blanqueamiento de datos antes del entrenamiento mejora la capacidad de generalización de un SVM?

Yoshua Bengio: ¿Cómo funcionan los modelos de lenguaje neural?

¿Cuáles son algunas implementaciones de SGD distribuidas?

¿Son los sistemas de recomendación actuales lo mejor que podemos hacer?

¿Cuál es el mejor algoritmo para descubrir todos los nodos de la red y mantener esa red en tiempo real?

¿Se pueden usar las redes de confrontación generativas para casos no supervisados?

En términos de rendimiento de clasificación en conjuntos de datos grandes y dispersos, ¿cómo se compara el aprendizaje profundo con la regresión logística en la práctica?

Si hoy existiera una computadora cuántica, ¿qué pasaría con la IA / aprendizaje automático / aprendizaje profundo? ¿En qué se traduciría esto para las empresas / industrias?

¿Cuáles son las configuraciones adecuadas para la agrupación de documentos con K-means?

¿Cómo se ha desviado Grok Solutions de la visión de Numenta?

¿Cuál puede ser un buen problema de investigación computacional para trabajar con el conjunto de datos de Wikipedia?