Desde una perspectiva de aprendizaje por refuerzo, este es el problema de la compensación de exploración versus explotación. ¿El agente sigue explotando una solución aceptable (en el marco de RL, esta es una política) para maximizar sus recompensas o debería explorar algunas otras políticas que podrían ser aún mejores?
Este problema es especialmente importante en problemas con señales de recompensas muy escasas, como un juego de atari llamado venganza de Montezuma. Un método de exploración como épsilon codicioso (donde el porcentaje de épsilon del tiempo, el agente tomará una acción aleatoria para tratar de explorar) no tiene remedio para resolver el problema, ya que el juego requiere una secuencia muy larga de acciones precisas para pasar incluso el primer nivel (suba escaleras, evite los emenies, recoja la llave, suba algunas escaleras más, salte a través de plataformas, finalmente abra la puerta a la siguiente área). Los métodos de exploración no dirigidos, como el épsilon codicioso, no pueden resolverlos.
Para superar esto, se han desarrollado métodos de exploración dirigida que pueden resolver estos problemas de alguna manera, como la exploración de psedo-count (mantenga una estimación de pseudo-count de qué estados y cuántas veces ha sido antes, y asigne una alta recompensa por los estados eso tiene bajo psedo-count, que en valor el agente para ir a nuevos estados nuevos).
- ¿Por qué 0 ^ 0 es igual a 1 en el estándar IEEE 754 aunque no tiene sentido?
- ¿Cuál es la diferencia entre la variable de control y la variable de confusión?
- ¿Ser bueno en matemáticas ayuda en la programación?
- Soy un programador con un poco de experiencia en matemáticas (después de la secundaria). ¿El curso de matemáticas de Khan Academy es suficiente para sumergirse en el aprendizaje automático / big data?
- ¿Los problemas de optimización en el aprendizaje profundo son típicamente convexos o no convexos?
Unificación de exploración basada en conteo y motivación intrínseca
Un estudio de exploración basada en conteo para el aprendizaje de refuerzo profundo
Como es de esperar, este es uno de los muchos problemas cruciales difíciles en el aprendizaje por refuerzo que aún debe resolverse.