En el aprendizaje supervisado, el objetivo es aprender una función de las observaciones, una función que asigna características / datos a la salida esperada.
En el aprendizaje de refuerzo inverso (IRL), el objetivo es aprender una función de recompensa de las observaciones.
Ambos se preocupan por aprender una función específica. Sin embargo, aquí es donde terminan las similitudes. Es la formulación del problema general que separa a estos dos.
- ¿Cuál es el alcance del aprendizaje automático para estudiantes universitarios?
- En el universo de máquinas súper inteligentes de Star Wars, ¿por qué las máquinas funcionan para los humanos y no al revés?
- ¿Cuál es la conexión, si hay algo, entre el razonamiento bayesiano y la lógica no monotónica?
- ¿La inteligencia artificial está sobrevalorada?
- ¿Existe algún experimento lo suficientemente avanzado que permita a AI escribir ficción, tal vez basada en una trama? ¿Algún investigador en particular que conoces?
En el caso de IRL, se le dan las observaciones del ‘experto’ y el trabajo consiste en aprender una función de recompensa de tal manera que la política aprendida usando esta ‘función de recompensa aprendida’ imite al ‘experto’ . Tenga en cuenta que el problema clásico de aprendizaje por refuerzo se trata de aprender la política dada la función de recompensa. Avanza un paso más en IRL: no conoce la función de recompensa y desea aprender eso (mediante el cual puede aprender la política final) de modo que el comportamiento del agente esté cerca de las acciones del experto.
Fig: Esquema explicativo del aprendizaje de refuerzo inverso.
Me gustaría agregar un comentario aquí. Técnicamente, dado que ambas son funciones de aprendizaje, se pueden utilizar técnicas similares. En el documento original donde definieron el problema hace diez años, usaron SVM como la función de recompensa. Solo estoy tratando de explicar que se pueden usar algos similares.
(Tomado de este blog de Cornell).