¿Por qué utilizamos la política codiciosa de epsilon para la evaluación en el aprendizaje por refuerzo?

Si te entiendo, te preguntas por qué el rendimiento de una política aprendida se mide experimentalmente con épsilon codicioso en lugar de codicioso.

La respuesta corta es a menudo veces no lo es; muchas veces el rendimiento se mide con avaricia. Pero hay razones por las que es posible que aún desee evaluar el rendimiento con una política codiciosa de epsilon. Lo que me viene a la mente de inmediato es que si el aprendizaje aún no ha convergido, es completamente posible que la política codiciosa sea catastróficamente mala en formas muy sutiles que hacen que el agente parezca mucho peor de lo que es. Por ejemplo, considere un mundo de cuadrícula donde las estimaciones de Q actuales del agente están en todas partes, excepto en un estado en el que le dice que camine hacia una pared que vuelve al mismo estado. Si el agente alcanza este estado, se quedará estancado para siempre y su rendimiento general parecerá terrible, a pesar de que el aprendizaje en todas partes del mundo convergió. Al mantener una política de exploración como épsilon codicioso, le permite al agente “caer” aleatoriamente de este tipo de bucles de desestimación leve y no hacer que dominen la medida del rendimiento general.

Por supuesto, hay otras formas de evitarlo si puede controlar el medio ambiente (como probar la política desde un conjunto de estados), pero mantener el épsilon codicioso es un enfoque sencillo.

epsilon -> aleatoriedad, que es necesaria para ampliar el espacio explorado.

codicioso -> óptimo * dentro * del espacio explorado.

Encontrar la solución óptima en un espacio pequeño no es útil, por lo que se necesita “epsilon”.

Entonces, durante la fase de prueba, en realidad no usamos el épsilon codicioso, usamos el codicioso.

Sin embargo, a menudo, cuando buscamos comparar el agente (es decir, DQN), queremos utilizar una estrategia de exploración que le dé buenos resultados.

More Interesting

¿Cómo detectar el idioma de un texto escrito en inglés? ¿Hay una API disponible donde podamos dar el texto como entrada?

¿Cuáles son los temas candentes para la investigación en Machine Learning?

¿Cuál es la diferencia entre el análisis factorial y el análisis de conglomerados?

¿Existe alguna relación entre la asignación de Dirichlet latente y los procesos de dirichlet?

¿Por qué se supera un clasificador supervisado?

Cómo comenzar a hacer un proyecto de aprendizaje automático

¿Cuáles son algunas redes neuronales diferentes que podrían usarse como algoritmos de control en cuadricópteros autónomos?

¿Cuál sería su guía para un hombre de 46 años que conoce la programación primaria y está interesado en obtener un conocimiento práctico del aprendizaje automático?

¿Puede un desarrollador de aprendizaje profundo atrapar criminales que abusan de niños?

¿Qué es el aprendizaje automático?

¿Qué tan cerca estamos del punto donde los radiólogos serán reemplazados por software de reconocimiento de imágenes / redes neuronales / IA?

¿Es la memoria y la potencia informática paralela masiva del cerebro más útil para el "entrenamiento" o la "prueba"?

¿Qué universidades de la India son buenas para realizar investigaciones en el aprendizaje por refuerzo?

¿Qué algoritmo de recomendaciones es más efectivo para desarrollar un entorno de crowdsourcing y qué lenguaje de programación sugiere?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?