¿Cuáles son las principales diferencias entre la inteligencia adaptativa y el aprendizaje por refuerzo?

Diría que la “inteligencia adaptativa” parece una idea conceptual, un objetivo a alcanzar. El “aprendizaje de refuerzo” es una técnica específica para lograr ese objetivo.

Por otro lado, el término “sistemas adaptativos”, aunque generalmente se usa tan generalmente como “inteligencia adaptativa”, también se usa para hablar sobre una técnica particular.

En particular, los “sistemas adaptativos” a veces se usan cuando el algoritmo de aprendizaje es un descenso de gradiente estocástico (SGD) con un tamaño de paso constante. Este término me parece principalmente en la literatura de filtros adaptativos y procesamiento de señales. La idea es la siguiente. Considere un agente que optimiza alguna variable en un entorno estocástico estacionario. Suponga que los agentes realizan SGD para aprender algo sobre el entorno (donde el proceso de aprendizaje se ha planteado como un problema de optimización). Para que el SGD converja al valor óptimo esperado, el tamaño del paso debería disminuir a cierta velocidad, ni demasiado rápido ni demasiado lento. El problema con la disminución del tamaño de los pasos es que cuando el tamaño de los pasos es demasiado pequeño, el sistema puede compensar el error, pero no puede rastrear ningún cambio (no estacionariedad) en los parámetros del sistema. Por otro lado, si el tamaño del paso es constante, el sistema podrá adaptarse a los cambios en los parámetros del sistema (sin embargo, con algunas limitaciones, este no es un filtro capaz de rastrear cambios continuos, sino que puede adaptarse a eventuales cambios).