¿Cuál es la diferencia entre el control óptimo adaptativo y el aprendizaje por refuerzo?

Gracias por A2A! Esta es una gran pregunta.

Stefan Schaal una vez había puesto esto muy bien en su periódico. El aprendizaje de refuerzo (RL) generalmente se distingue del control adaptativo en que el sistema de aprendizaje puede tener objetivos de optimización bastante generales, no solo, por ejemplo, un error de seguimiento mínimo, y se le permite fallar durante el proceso de aprendizaje, mientras que el control adaptativo enfatiza la convergencia rápida sin fracaso. Por lo tanto, RL se asemeja a la forma en que los humanos y los animales adquieren nuevas estrategias de movimiento, mientras que el control adaptativo es un caso especial de control de aprendizaje que cumple estrictas restricciones de rendimiento, por ejemplo, según sea necesario en sistemas críticos para la vida como los aviones.

Este énfasis en la convergencia sin fallas en el control adaptativo a menudo se presenta en forma de más suposiciones y restricciones en el sistema subyacente, en comparación con muy pocas suposiciones hechas en RL sin modelo.

Finalmente, en el control adaptativo, las tareas generalmente no son episódicas . Por ejemplo, le importa rastrear un sistema para siempre en lugar de solo por una duración / horizonte fijo.