Después de leer el artículo de Abbeel y Ng una vez antes, la explicación más clara para IRL que se me ocurre es la de un perro que intenta resolver un problema de clasificación de varias clases utilizando solo señales de su propietario y siendo recompensado por las acciones que luego toma. Puede haber múltiples propietarios. Idealmente, el perro debe darse cuenta de situaciones en las que el “Experto” (/ Propietario) supera su reacción natural a la situación. Lo que esto significa para el perro es que no debe aprender la acción ideal. Es decir, no debe memorizar una causa-efecto, sino aprender qué recompensa puede obtener de las posibles acciones. Por lo tanto, lo que el perro está haciendo esencialmente es tratar de maximizar la recompensa general que puede obtener por un conjunto de situaciones y acciones de entrenamiento dado que el propietario tomaría (“en este caso marcar al perro”). (Ejemplo un poco retorcido, pero escribí un par de líneas sobre perros y lobos en mis notas 😀 … Una diferencia fascinante entre los perros y los lobos domesticados)
¿Cómo se explica el aprendizaje de refuerzo inverso en términos simples?
Related Content
¿Es la singularidad un hecho o solo una hipótesis?
¿Se reducirá la demanda de actuarios con inteligencia artificial?
¿Podría haber una IA sin relación con el pensamiento humano?
Si hablo con personas sin antecedentes de ML o CS, lo expresaría así.
Quiero enseñarle a un robot cómo comportarse de cierta manera. Para enseñarle cómo comportarse, lo controlaré manualmente en todo el mundo para darle ejemplos del comportamiento que quiero. En lugar de que el robot aprenda este comportamiento “memorizando” mis comportamientos, lo programo para usar el aprendizaje de refuerzo inverso (IRL). En IRL, el robot aprende a predecir qué objetivo debo haber estado tratando de lograr en los ejemplos que le di. Cuando se trata de actuar en el mundo, el robot se comporta de una manera que le permitirá alcanzar el objetivo que aprendió. La ventaja de IRL sobre la memorización es que si el robot se encuentra en una situación nueva que nunca vio en los ejemplos, descubrirá cómo actuar, en lugar de un robot que solo memorizó lo que hice y, por lo tanto, no puede saber qué hacer. En una situación novedosa.
El aprendizaje de refuerzo es el método para encontrar una política de acción óptima para una función de recompensa conocida. Sin embargo, para la mayoría de las aplicaciones del mundo real, la función de recompensa en sí no está clara. El RL inverso es lidiar con esta situación. Para el IRL ahora tiene una “política de acción óptima”, es decir, la demostración experta que es más fácil de obtener. El objetivo de IRL es encontrar la función de recompensa.
More Interesting
¿Qué significa ser 'inteligente' después de que la IA se haya integrado en el cerebro humano?
¿Cuál podría ser la aplicación del aprendizaje automático en la industria de pagos?
¿El aprendizaje automático es parte de la inteligencia artificial?
¿Crees que la inteligencia artificial miente?
¿Por qué Elon Musk cree que la comprensión de Mark Zuckerberg de la IA es limitada?
¿La traducción automática hará que aprender un idioma extranjero sea innecesario?
¿Cuántos años hasta que los programadores sean reemplazados por IA?
¿Existe un buen libro que cubra todo lo que necesita saber para el desarrollo de IA?
¿Por qué Rahul Gandhi necesita inteligencia artificial? ¿Le ayuda a ganar las elecciones?
¿Quora es un formato para el desarrollo y prueba de inteligencia artificial?