Gracias por A2A! Esta es una gran pregunta.
Stefan Schaal una vez había puesto esto muy bien en su periódico. El aprendizaje de refuerzo (RL) generalmente se distingue del control adaptativo en que el sistema de aprendizaje puede tener objetivos de optimización bastante generales, no solo, por ejemplo, un error de seguimiento mínimo, y se le permite fallar durante el proceso de aprendizaje, mientras que el control adaptativo enfatiza la convergencia rápida sin fracaso. Por lo tanto, RL se asemeja a la forma en que los humanos y los animales adquieren nuevas estrategias de movimiento, mientras que el control adaptativo es un caso especial de control de aprendizaje que cumple estrictas restricciones de rendimiento, por ejemplo, según sea necesario en sistemas críticos para la vida como los aviones.
Este énfasis en la convergencia sin fallas en el control adaptativo a menudo se presenta en forma de más suposiciones y restricciones en el sistema subyacente, en comparación con muy pocas suposiciones hechas en RL sin modelo.
- ¿Se puede usar tensorflow en SVM?
- ¿Cuáles son los mejores solucionadores de programas cuadráticos?
- ¿Por qué el aumento de gradiente funciona tan bien para tantos problemas de Kaggle?
- ¿Alguna forma de dormir será esencial en la IA (inteligencia artificial)?
- Cómo obtener una pasantía de investigación en aprendizaje automático o inteligencia artificial en una universidad de los EE. UU., Ser indio trabajando en una startup
Finalmente, en el control adaptativo, las tareas generalmente no son episódicas . Por ejemplo, le importa rastrear un sistema para siempre en lugar de solo por una duración / horizonte fijo.