¿Cuál es la diferencia entre el aprendizaje supervisado y el aprendizaje de refuerzo inverso?

En el aprendizaje supervisado, el objetivo es aprender una función de las observaciones, una función que asigna características / datos a la salida esperada.

En el aprendizaje de refuerzo inverso (IRL), el objetivo es aprender una función de recompensa de las observaciones.

Ambos se preocupan por aprender una función específica. Sin embargo, aquí es donde terminan las similitudes. Es la formulación del problema general que separa a estos dos.

En el caso de IRL, se le dan las observaciones del ‘experto’ y el trabajo consiste en aprender una función de recompensa de tal manera que la política aprendida usando esta ‘función de recompensa aprendida’ imite al ‘experto’ . Tenga en cuenta que el problema clásico de aprendizaje por refuerzo se trata de aprender la política dada la función de recompensa. Avanza un paso más en IRL: no conoce la función de recompensa y desea aprender eso (mediante el cual puede aprender la política final) de modo que el comportamiento del agente esté cerca de las acciones del experto.

Fig: Esquema explicativo del aprendizaje de refuerzo inverso.

Me gustaría agregar un comentario aquí. Técnicamente, dado que ambas son funciones de aprendizaje, se pueden utilizar técnicas similares. En el documento original donde definieron el problema hace diez años, usaron SVM como la función de recompensa. Solo estoy tratando de explicar que se pueden usar algos similares.

(Tomado de este blog de Cornell).

Aprendizaje automáticoAprendizaje por refuerzoAprendizaje supervisadoInteligencia Artificial

Related Content

¿La propagación hacia atrás proporciona pesos finales óptimos a nivel mundial solo si el espacio de la solución de adaptación es convexo?

¿En qué debería especializarme si quiero estudiar la intuición artificial?

¿Prefieres aprender inteligencia artificial o ciencia espacial?

¿Qué tan difícil es la clase de inteligencia artificial de Patrick Winston en el MIT?

¿El perfil psicológico utiliza técnicas de aprendizaje automático y big data? Si no, ¿cómo utiliza los datos?

¿Cómo encriptan los administradores de contraseñas?

¿Cómo abordaría la ciberseguridad y el aprendizaje automático a través de un aprendizaje supervisado, no supervisado o de refuerzo?

A2A, Por aprendizaje de refuerzo inverso lo tomaré como aprendizaje de refuerzo inverso.

El aprendizaje supervisado es el método para aprender una función a partir de ejemplos de entrenamiento etiquetados. Por ejemplo, hacer la clasificación de imágenes en un conjunto de datos como ImageNet. Los métodos de vanguardia actuales en el aprendizaje supervisado a menudo utilizan arquitecturas como redes neuronales profundas para aprender una función compleja no lineal que transforma el vector de entrada en la etiqueta de entrenamiento deseada.

En el aprendizaje de refuerzo inverso, el objetivo es aprender un Proceso de decisión de Markov a partir de decisiones expertas etiquetadas. Más específicamente, el objetivo es aprender la función de recompensa del proceso de decisión subyacente.

La primera configuración, aprendizaje supervisado, intenta aprender una función f, que toma el vector de entrada x, para producir la salida y. En esencia, dado x e y encontrar [matemáticas] f, donde f (x) = y. [/ Matemáticas]

La otra configuración intenta aprender una función de recompensa, es decir, cuando estoy en el estado 1, recibo una recompensa de 5. Cuando estoy en el estado 2, recibo una recompensa de 3.

Gaurav Chakravorty

More Interesting

Para 2037, ¿la mayoría de los trabajos serán realizados por máquinas e IA?

¿Se puede usar la computación humana gratuita para inventar servicios inteligentes de computación humana (por ejemplo, Duolingo)?

¿Mentalese regresa en Inteligencia Artificial?

¿Qué herramienta de IA para Windows 10 puedo usar?

¿Cuáles son algunos programas / juegos populares que pueden aprender del usuario y mejorar automáticamente?

¿La IA avanzada conducirá a la compañía de mil millones de dólares?

Cómo seguir mi carrera en IA

¿Existen IDE o marcos creados para la investigación de IA?

¿Qué tipos de algoritmos de aprendizaje automático son buenos para aprender representación? ¿Es solo aprendizaje profundo?

¿Cuáles son los buenos tutoriales sobre cómo hacer chatbots con machine learning?

Las computadoras ahora pueden vencer a cualquier jugador humano en el ajedrez. ¿En qué juegos las computadoras aún no pueden vencer a los campeones humanos, y por qué?

¿La IA se convertirá en el día del juicio final del futuro?

Cómo reconocer tu tipo de inteligencia

¿Cuáles son las principales áreas de investigación en el departamento de IA en MIT / UCB / CMU / Stanford?

¿Qué es una explicación intuitiva de las redes neuronales convolucionales?

Web Analytics