¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?

Los modelos de tipo IRL se utilizan en modelos dinámicos de elección discreta en econometría estructural y marketing cuantitativo. Asume que los agentes (consumidores, empresas, etc.) juegan racionalmente en un juego (infinitamente) repetido. Esto significa que la necesidad del agente de resolver la ecuación / programa dinámico de Bellman. Luego, observando las elecciones que hacen los agentes en el mundo real, puede deducir las recompensas que llevan a los agentes a jugar como lo hacen en cierto estado. Aquí, un estado puede ser el número de competidores, el tamaño del mercado o el número de ofertas de trabajo (en modelos de búsqueda de empleo).

Para juegos con interacción estratégica entre agentes, el concepto de solución correspondiente es el equilibrio perfecto de Markov. Esto se relaciona con RL multiagente (inverso).

El artículo fundamental para este capítulo de la literatura es Rust (1987).

Echa un vistazo a estas diapositivas de la conferencia del curso Deep RL de Berkeley:

http://rll.berkeley.edu/deeprlco

Hay un montón de buenos documentos a los que se hace referencia allí. Además, el sitio web del curso tiene el video de la conferencia que corresponde a las diapositivas.

Aquí hay uno de esos papeles.

http://ai.stanford.edu/~ang/pape

More Interesting

Estoy muy interesado en el aprendizaje automático y quiero trabajar en algunos proyectos de código abierto. ¿Qué proyectos puedes sugerir?

¿El ajuste fino funciona mejor cada vez que entrenar desde cero?

Cómo aprender a crear un sistema óptico de reconocimiento de caracteres utilizando redes neuronales artificiales como mi mini proyecto

¿Cuáles son las aplicaciones más interesantes del aprendizaje automático en espacios inesperados?

Procesamiento del lenguaje natural: ¿Hay alguna manera de medir la "informatividad" de una oración en un documento?

¿Cuáles son los mejores recursos en línea para mejorar los algoritmos de aprendizaje automático?

¿Hay alguna manera de hacer una clasificación de múltiples etiquetas en los árboles de decisión usando R / Python?

¿Cuáles son las ventajas y desventajas de utilizar PMML como formato de intercambio para modelos de análisis predictivo?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Qué teoría debería aprender a crear un algoritmo para clasificar los textos automáticamente?

Estoy aprendiendo aprendizaje profundo, ¿por qué es útil la matriz y qué es el cálculo?

¿Dónde puedo encontrar a alguien que me enseñe 1 a 1 sobre el aprendizaje automático?

Tengo una entrevista telefónica técnica para una pasantía la próxima semana con el aprendizaje automático y el equipo de fraude de Uber. ¿Debo esperar DS y algoritmos generales o algo más?

Cómo crear mi propia biblioteca de tokenizadores en PNL

¿Cómo puede ayudar el conocimiento de un proceso estocástico, el movimiento browniano y un proceso de martingala con el aprendizaje profundo y la investigación del aprendizaje automático?