En el aprendizaje por refuerzo, su objetivo es tratar de encontrar la política óptima. Básicamente, para cada puesto que pueda estar, averigüe qué es lo mejor que puedo hacer. La forma de descubrir qué es “lo mejor que podría hacer” es básicamente combinando una estrategia de exploración y explotación mientras consulta una función de recompensa. Entonces, mientras recibe una señal del entorno, intenta maximizar esa señal, sin perderse en la avaricia. Estás buscando el lugar de sudor.
Si inviertes esto, obtienes aprendizaje de refuerzo inverso. En otras palabras, dada una política óptima, que probablemente sea dada por otro agente, o tal vez un experto humano, descubra cuál es la función de recompensa. Lo que está tratando de lograr en Inverse-RL es recuperar la función de recompensa.
La cuestión es que, piense en ello, no siempre conoce la recompensa que obtiene al realizar una tarea, sin embargo, es posible que sepa qué es lo correcto. Un ejemplo de esto es cuando desea crear modelos computacionales de comportamiento animal o humano. Esta es la razón por la cual el aprendizaje de refuerzo inverso se usa en robótica.
- ¿Cuál tiene menos matemáticas y más ciencias de la computación, redes o inteligencia artificial?
- ¿Alguien aquí conoce el mejor instituto para aprender IA en Bangalore, India?
- ¿El concepto de inteligencia artificial excluye la noción de conciencia artificial y emoción artificial?
- ¿Se puede clasificar a un robot autorreplicante e artificialmente inteligente como un ser vivo?
- Cómo crear un conjunto de datos para un chatbot orientado a objetivos
De forma intuitiva, puede comparar el aprendizaje por refuerzo y el aprendizaje por refuerzo inverso, ya que el aprendizaje por refuerzo es aprender cosas por su cuenta, mientras que el aprendizaje por refuerzo inverso es un experto que le dice qué hacer. Por eso también se le llama aprendizaje de aprendizaje o imitación.