¿Cuál es la diferencia entre el control óptimo adaptativo y el aprendizaje por refuerzo?

Gracias por A2A! Esta es una gran pregunta.

Stefan Schaal una vez había puesto esto muy bien en su periódico. El aprendizaje de refuerzo (RL) generalmente se distingue del control adaptativo en que el sistema de aprendizaje puede tener objetivos de optimización bastante generales, no solo, por ejemplo, un error de seguimiento mínimo, y se le permite fallar durante el proceso de aprendizaje, mientras que el control adaptativo enfatiza la convergencia rápida sin fracaso. Por lo tanto, RL se asemeja a la forma en que los humanos y los animales adquieren nuevas estrategias de movimiento, mientras que el control adaptativo es un caso especial de control de aprendizaje que cumple estrictas restricciones de rendimiento, por ejemplo, según sea necesario en sistemas críticos para la vida como los aviones.

Este énfasis en la convergencia sin fallas en el control adaptativo a menudo se presenta en forma de más suposiciones y restricciones en el sistema subyacente, en comparación con muy pocas suposiciones hechas en RL sin modelo.

Finalmente, en el control adaptativo, las tareas generalmente no son episódicas . Por ejemplo, le importa rastrear un sistema para siempre en lugar de solo por una duración / horizonte fijo.

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial

Related Content

¿Cuáles son los trabajos más gratificantes para quienes desean trabajar en el aprendizaje profundo?

¿Qué es la precisión?

¿Qué es una explicación intuitiva de la convolución 1 × 1 en ConvNets?

¿El análisis complejo es relevante para el aprendizaje automático?

¿Qué son las unidades recurrentes cerradas y cómo se pueden implementar con TensorFlow?

¿Por qué las empresas privadas, especialmente las firmas de abogados, dudan en invertir en seguridad cibernética y prevención de pérdida de datos?

¿El descenso de gradiente de lote completo, con potencia de computadora ilimitada, es siempre mejor que el descenso de gradiente de mini lote?

More Interesting

¿Hay trabajos de investigación que utilicen el aprendizaje profundo para tomar decisiones clínicas?

¿Tiene sentido emplear Bayes ingenuos multinomiales con n-gramos? Pregunto porque supone que cada posición está ocupada por un término, por lo que los n-gramos no parecen encajar naturalmente en el modelo.

¿Cuál es la segunda generación de redes neuronales?

¿Qué recursos debo usar para comenzar a aprender Machine Learning durante el verano con mi educación actual?

Cómo usar la red neuronal

¿Qué es el proceso de procesamiento del lenguaje natural?

Cómo lidiar con un conjunto de datos duro que no me da buenos resultados en la validación del modelo

¿Cómo puedo interpretar las predicciones en un modelo de aprendizaje automático de salud (bosque aleatorio) para infarto agudo de miocardio?

¿Qué es la optimización submodular?

¿Cómo se compara Python con R para el análisis de datos y el aprendizaje automático?

Cómo integrar el marco Tensorflow con XGBoost

¿Por qué el submuestreo de características u observaciones mejora el rendimiento de GBM?

¿Las startups ofrecen trabajos orientados a la investigación?

Cómo leer y comprender trabajos de investigación sobre aprendizaje automático

¿Necesito pasar al menos 1 año para repasar mis matemáticas antes de aprender el aprendizaje automático y el aprendizaje profundo?

Web Analytics