¿Cuál es la diferencia entre aprendizaje gradual y aprendizaje de refuerzo?

No estoy seguro de a qué se refiere el término “aprendizaje gradual”, ya que nunca había escuchado realmente ese término usado antes.

Los términos más cercanos que puedo adivinar en el contexto aplicado con el aprendizaje por refuerzo son los términos aprendizaje curricular y aprendizaje permanente .

  1. Aprendizaje curricular

(vea este documento de 2009 de Yoshua Bengio, etc.) https://ronan.collobert.com/pub/…. Si bien es una técnica que se puede aplicar a la optimización general de la red neuronal profunda, el aprendizaje curricular también es un método bastante popular para capacitar a los agentes de RL en tareas difíciles (especialmente aquellas con recompensas escasas). Dentro del contexto de RL, esencialmente permite que el agente aprenda primero de tareas muy simples y relacionadas y luego aumenta las dificultades a medida que mejora el rendimiento del agente,

Existen numerosos ejemplos de esto cuando buscas documentos RL, por ejemplo este (Training Agent for First-Person Shooter Game with Currriculum Learning), donde el algoritmo A3C se usó para entrenar a un agente RL para competir en la competencia vizdoom ( Visual Doom AI Competition 2016 @ CIG). Crearon sus propios mapas personalizados donde podían ajustar la dificultad del juego variando algunos parámetros (fuerza de los bots integrados del juego, velocidad de movimiento, etc.)

Otro ejemplo en el que RL se aplica a tareas como copiar una cadena, revertir, etc. ([1611.09321] Mejora del gradiente de políticas mediante la exploración de recompensas poco apreciadas)

2. Aprendizaje permanente

Esto nuevamente tiene aplicaciones más amplias dentro del aprendizaje automático, y dentro del marco de referencia de RL está relacionado principalmente con el aprendizaje jerárquico, el aprendizaje de transferencia, etc. Sigue siendo un tema de RL muy poco explorado.

El borrador de este libro cubre ampliamente el tema del aprendizaje permanente (https://www.cs.uic.edu/~liub/lif…), tanto dentro del caso general de LD como en RL.