¿Cuál es la diferencia entre el aprendizaje por refuerzo y el aprendizaje por refuerzo inverso?

En el aprendizaje por refuerzo, su objetivo es tratar de encontrar la política óptima. Básicamente, para cada puesto que pueda estar, averigüe qué es lo mejor que puedo hacer. La forma de descubrir qué es “lo mejor que podría hacer” es básicamente combinando una estrategia de exploración y explotación mientras consulta una función de recompensa. Entonces, mientras recibe una señal del entorno, intenta maximizar esa señal, sin perderse en la avaricia. Estás buscando el lugar de sudor.

Si inviertes esto, obtienes aprendizaje de refuerzo inverso. En otras palabras, dada una política óptima, que probablemente sea dada por otro agente, o tal vez un experto humano, descubra cuál es la función de recompensa. Lo que está tratando de lograr en Inverse-RL es recuperar la función de recompensa.

La cuestión es que, piense en ello, no siempre conoce la recompensa que obtiene al realizar una tarea, sin embargo, es posible que sepa qué es lo correcto. Un ejemplo de esto es cuando desea crear modelos computacionales de comportamiento animal o humano. Esta es la razón por la cual el aprendizaje de refuerzo inverso se usa en robótica.

De forma intuitiva, puede comparar el aprendizaje por refuerzo y el aprendizaje por refuerzo inverso, ya que el aprendizaje por refuerzo es aprender cosas por su cuenta, mientras que el aprendizaje por refuerzo inverso es un experto que le dice qué hacer. Por eso también se le llama aprendizaje de aprendizaje o imitación.

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial

Related Content

¿Los manifestantes anti-robot en SXSW son indicativos de un amplio sentimiento anti-robot?

¿Es posible hacer algo útil con Machine Learning solo o en un equipo pequeño?

¿Cómo creo un robot andante?

¿Podría enseñarle a un robot a caminar imitando un escenario de 'carrera de tres patas'?

¿Qué es una red neuronal de desplazamiento espacial (SDNN)?

¿Cuáles son las principales startups de inteligencia artificial en India?

Cuando dos computadoras portátiles envían datos al enrutador (en términos de comunicaciones analógicas), ¿cómo podría el enrutador diferenciar entre los dos (analógicos) y enviar datos?

El aprendizaje de refuerzo es cuando un agente intenta maximizar sus recompensas en un entorno.

Por el contrario, en el aprendizaje de refuerzo inverso, un agente intenta seguir a un “agente docente” a través de recompensas y lo hace bajo el supuesto de que el agente docente está maximizando sus recompensas.

En la práctica, el “agente docente” a menudo puede ser otra acción algorítmica que queremos que el agente siga (como los agentes RL que intentan aprender SGD)

Miguel Morales

More Interesting

¿Por qué obtengo un error absurdamente grande cuando uso redes neuronales con muchas capas?

¿Cuál es la herramienta de aprendizaje automático más popular?

¿Cómo mantiene un equilibrio un robot humanoide bípedo cuando camina?

¿Puedo tener éxito en una maestría en IA / ML si no soy un gran programador?

¿Cuáles son los temas principales sobre la planificación del movimiento del robot?

¿Qué son buenos libros sobre sistemas de aprendizaje adaptativo?

¿Existe un mejor clasificador de aprendizaje automático?

¿En qué ocasiones te das cuenta de que las computadoras no son tan inteligentes como podrían ser?

¿Los humanos solo están viviendo computadoras que ejecutan código genético en forma de ADN, y nuestro comportamiento puede explicarse como la interacción entre programas en ejecución en sus contenedores a base de carbono?

¿Qué lenguaje de programación debería aprender para la IA que será predominante en el futuro cercano?

¿Qué matemática se usa en el aprendizaje automático / investigación de inteligencia artificial?

Si no podemos aceptar la aparición de IA y robots, ¿no deberíamos volver a la Edad de Piedra y dormir en cuevas?

¿Cuál es el estado actual del Proyecto Halo?

Cómo aprender prácticamente las redes neuronales mientras se obtiene una comprensión profunda

Cómo diferenciar entre un programa inteligente y un programa normal en el contexto de la inteligencia artificial

Web Analytics