¿Cómo se explica el aprendizaje de refuerzo inverso en términos simples?

Después de leer el artículo de Abbeel y Ng una vez antes, la explicación más clara para IRL que se me ocurre es la de un perro que intenta resolver un problema de clasificación de varias clases utilizando solo señales de su propietario y siendo recompensado por las acciones que luego toma. Puede haber múltiples propietarios. Idealmente, el perro debe darse cuenta de situaciones en las que el “Experto” (/ Propietario) supera su reacción natural a la situación. Lo que esto significa para el perro es que no debe aprender la acción ideal. Es decir, no debe memorizar una causa-efecto, sino aprender qué recompensa puede obtener de las posibles acciones. Por lo tanto, lo que el perro está haciendo esencialmente es tratar de maximizar la recompensa general que puede obtener por un conjunto de situaciones y acciones de entrenamiento dado que el propietario tomaría (“en este caso marcar al perro”). (Ejemplo un poco retorcido, pero escribí un par de líneas sobre perros y lobos en mis notas 😀 … Una diferencia fascinante entre los perros y los lobos domesticados)

Si hablo con personas sin antecedentes de ML o CS, lo expresaría así.

Quiero enseñarle a un robot cómo comportarse de cierta manera. Para enseñarle cómo comportarse, lo controlaré manualmente en todo el mundo para darle ejemplos del comportamiento que quiero. En lugar de que el robot aprenda este comportamiento “memorizando” mis comportamientos, lo programo para usar el aprendizaje de refuerzo inverso (IRL). En IRL, el robot aprende a predecir qué objetivo debo haber estado tratando de lograr en los ejemplos que le di. Cuando se trata de actuar en el mundo, el robot se comporta de una manera que le permitirá alcanzar el objetivo que aprendió. La ventaja de IRL sobre la memorización es que si el robot se encuentra en una situación nueva que nunca vio en los ejemplos, descubrirá cómo actuar, en lugar de un robot que solo memorizó lo que hice y, por lo tanto, no puede saber qué hacer. En una situación novedosa.

El aprendizaje de refuerzo es el método para encontrar una política de acción óptima para una función de recompensa conocida. Sin embargo, para la mayoría de las aplicaciones del mundo real, la función de recompensa en sí no está clara. El RL inverso es lidiar con esta situación. Para el IRL ahora tiene una “política de acción óptima”, es decir, la demostración experta que es más fácil de obtener. El objetivo de IRL es encontrar la función de recompensa.