¿Cuáles son algunos buenos documentos con ejemplos del mundo real del aprendizaje de refuerzo inverso (IRL)?

Los modelos de tipo IRL se utilizan en modelos dinámicos de elección discreta en econometría estructural y marketing cuantitativo. Asume que los agentes (consumidores, empresas, etc.) juegan racionalmente en un juego (infinitamente) repetido. Esto significa que la necesidad del agente de resolver la ecuación / programa dinámico de Bellman. Luego, observando las elecciones que hacen los agentes en el mundo real, puede deducir las recompensas que llevan a los agentes a jugar como lo hacen en cierto estado. Aquí, un estado puede ser el número de competidores, el tamaño del mercado o el número de ofertas de trabajo (en modelos de búsqueda de empleo).

Para juegos con interacción estratégica entre agentes, el concepto de solución correspondiente es el equilibrio perfecto de Markov. Esto se relaciona con RL multiagente (inverso).

El artículo fundamental para este capítulo de la literatura es Rust (1987).

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial

Related Content

¿Por qué podría ser preferible incluir menos predictores sobre muchos?

¿Qué piensa sobre el estudio de posgrado especializado en recuperación de información y sistemas de recomendación?

No tengo dinero para comprar una computadora poderosa, ¿cómo puedo aprender en la GPU?

¿Cómo pudo Mark Zuckerberg implementar algoritmos de aprendizaje automático a la edad de 14 años?

¿Cómo se usa el modelo predictivo en la regresión logística?

Como dicen, cada función posible se puede modelar con una percepción de 2 capas, en teoría, ¿se puede modelar una función del universo en una red neuronal con 2 o 3 capas de profundidad?

¿Por qué los videojuegos modernos tienen un tiempo de carga largo para las áreas en las que ya estás? ¿No deberían simplemente reaparecer a ti / enemigos / artículos, por qué tarda tanto tiempo como cargar el área en primer lugar?

Echa un vistazo a estas diapositivas de la conferencia del curso Deep RL de Berkeley:

http://rll.berkeley.edu/deeprlco …

Hay un montón de buenos documentos a los que se hace referencia allí. Además, el sitio web del curso tiene el video de la conferencia que corresponde a las diapositivas.

Taylor Apgar

Aquí hay uno de esos papeles.

http://ai.stanford.edu/~ang/pape …

George Andrews

More Interesting

Estoy muy interesado en el aprendizaje automático y quiero trabajar en algunos proyectos de código abierto. ¿Qué proyectos puedes sugerir?

¿El ajuste fino funciona mejor cada vez que entrenar desde cero?

Cómo aprender a crear un sistema óptico de reconocimiento de caracteres utilizando redes neuronales artificiales como mi mini proyecto

¿Cuáles son las aplicaciones más interesantes del aprendizaje automático en espacios inesperados?

Procesamiento del lenguaje natural: ¿Hay alguna manera de medir la "informatividad" de una oración en un documento?

¿Cuáles son los mejores recursos en línea para mejorar los algoritmos de aprendizaje automático?

¿Hay alguna manera de hacer una clasificación de múltiples etiquetas en los árboles de decisión usando R / Python?

¿Cuáles son las ventajas y desventajas de utilizar PMML como formato de intercambio para modelos de análisis predictivo?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Qué teoría debería aprender a crear un algoritmo para clasificar los textos automáticamente?

Estoy aprendiendo aprendizaje profundo, ¿por qué es útil la matriz y qué es el cálculo?

¿Dónde puedo encontrar a alguien que me enseñe 1 a 1 sobre el aprendizaje automático?

Tengo una entrevista telefónica técnica para una pasantía la próxima semana con el aprendizaje automático y el equipo de fraude de Uber. ¿Debo esperar DS y algoritmos generales o algo más?

Cómo crear mi propia biblioteca de tokenizadores en PNL

¿Cómo puede ayudar el conocimiento de un proceso estocástico, el movimiento browniano y un proceso de martingala con el aprendizaje profundo y la investigación del aprendizaje automático?

Web Analytics