¿Cuál es la diferencia entre el aprendizaje supervisado y el aprendizaje de refuerzo inverso?

En el aprendizaje supervisado, el objetivo es aprender una función de las observaciones, una función que asigna características / datos a la salida esperada.

En el aprendizaje de refuerzo inverso (IRL), el objetivo es aprender una función de recompensa de las observaciones.

Ambos se preocupan por aprender una función específica. Sin embargo, aquí es donde terminan las similitudes. Es la formulación del problema general que separa a estos dos.

En el caso de IRL, se le dan las observaciones del ‘experto’ y el trabajo consiste en aprender una función de recompensa de tal manera que la política aprendida usando esta ‘función de recompensa aprendida’ imite al ‘experto’ . Tenga en cuenta que el problema clásico de aprendizaje por refuerzo se trata de aprender la política dada la función de recompensa. Avanza un paso más en IRL: no conoce la función de recompensa y desea aprender eso (mediante el cual puede aprender la política final) de modo que el comportamiento del agente esté cerca de las acciones del experto.

Fig: Esquema explicativo del aprendizaje de refuerzo inverso.

Me gustaría agregar un comentario aquí. Técnicamente, dado que ambas son funciones de aprendizaje, se pueden utilizar técnicas similares. En el documento original donde definieron el problema hace diez años, usaron SVM como la función de recompensa. Solo estoy tratando de explicar que se pueden usar algos similares.

(Tomado de este blog de Cornell).

A2A, Por aprendizaje de refuerzo inverso lo tomaré como aprendizaje de refuerzo inverso.

El aprendizaje supervisado es el método para aprender una función a partir de ejemplos de entrenamiento etiquetados. Por ejemplo, hacer la clasificación de imágenes en un conjunto de datos como ImageNet. Los métodos de vanguardia actuales en el aprendizaje supervisado a menudo utilizan arquitecturas como redes neuronales profundas para aprender una función compleja no lineal que transforma el vector de entrada en la etiqueta de entrenamiento deseada.

En el aprendizaje de refuerzo inverso, el objetivo es aprender un Proceso de decisión de Markov a partir de decisiones expertas etiquetadas. Más específicamente, el objetivo es aprender la función de recompensa del proceso de decisión subyacente.

La primera configuración, aprendizaje supervisado, intenta aprender una función f, que toma el vector de entrada x, para producir la salida y. En esencia, dado x e y encontrar [matemáticas] f, donde f (x) = y. [/ Matemáticas]

La otra configuración intenta aprender una función de recompensa, es decir, cuando estoy en el estado 1, recibo una recompensa de 5. Cuando estoy en el estado 2, recibo una recompensa de 3.