¿Cuál es la relación entre el aprendizaje automático en línea y la teoría de juegos?

Hay una relación muy cercana. Los algoritmos de aprendizaje en línea como el algoritmo de mayoría ponderada aleatorizada (y, en general, cualquier algoritmo para resolver problemas de optimización convexa en línea como el descenso de gradiente en línea o Perceptron) son versiones constructivas del teorema Minimax de Von Neumann. Esto significa, en particular, que si usa un algoritmo de este tipo para jugar un juego contra un oponente (al identificar a los expertos del algoritmo de mayoría ponderada con las acciones en el juego, no importa qué estrategia tome su oponente contra usted, terminará haciendo lo mismo). así como si hubieras jugado la mejor acción fija en retrospectiva, que siempre logra al menos tu valor minimax en el juego. De hecho, la existencia de tales algoritmos de aprendizaje en línea conduce a una prueba muy simple del teorema minmax en sí mismo, mucho más simple que La prueba original de von Neumann.

En particular, si dos jugadores usan un algoritmo de este tipo jugando uno contra el otro en un juego de suma cero, ambos alcanzan su valor mínimo, lo que significa que el historial de juego converge a un equilibrio de Nash del juego.

Si los jugadores juegan un algoritmo de aprendizaje en línea más sofisticado que logra lo que se conoce como no arrepentimiento de intercambio , entonces, en cualquier juego, su juego convergerá a un equilibrio correlacionado. Esto muestra en particular que los equilibrios correlacionados son un concepto de solución manejable en cualquier juego conciso, lo que no es cierto para el equilibrio de Nash, que puede ser difícil de encontrar.

Para más información sobre esto, recomiendo revisar el Capítulo 4 del libro de texto Algorithmic Game Theory (Página en cmu.edu), o Lectures 6-11 de mi clase de pregrado: Algorithmic Game Theory

Related Content

¿Cómo se puede aplicar OpenCyc o ResearchCyc al archivo histórico de Twitter?

¿La Inteligencia Artificial salvará a la 'Colonia Humana' de destruirse a sí misma?

¿De qué lado estás en el debate actual sobre IA entre Mark Zuckerberg y Elon Musk?

¿Cómo se ve una plantilla para la generación de lenguaje natural?

¿Los desarrolladores front-end serán reemplazados por IA?

Cuando desconecto un USB de una computadora, ¿qué desconecta primero, la conexión digital o física?

¿Cuáles son algunas preguntas abiertas relacionadas con bandidos multibrazos?

El aprendizaje en línea y el aprendizaje en los juegos son casos especiales de lo que se conoce como el problema de predicción de secuencia individual. No voy a tratar de definir ese problema en general, pero si quieres ver todos los detalles sangrientos, deberías consultar Predicción, Aprendizaje y Juegos.

Jonathan Day

La teoría de juegos trata sobre el análisis de estrategias, el análisis de conflictos y el análisis de la calidad de la información.

El aprendizaje automático debe tener una estrategia, programada o derivada. Debe poder manejar datos en conflicto. Si es inteligentemente adaptativo, debe ser capaz de hacer un metanálisis.

Jonathan Day

More Interesting

Cómo hacer un robot que cocine para mí

¿Es posible incorporar la empatía en máquinas inteligentes a través del aprendizaje automático?

¿Cómo se crean los grandes juegos como FIFA 14?

¿Hay robots capaces de emular heurísticas?

¿Llegará un momento en que los humanos informarán a los robots inteligentes?

¿Es la pirámide de Maslow la clave para hacer una IA 'consciente'?

¿Piensan las personas en los próximos 50 a 100 años que los robots se harán cargo de los humanos con respecto a los avances en IA?

¿Qué puede hacer el aprendizaje automático que la analítica tradicional no puede hacer?

¿Qué hará el gobierno con grandes grupos de ciudadanos que están desempleados poco calificados, sin educación y de larga duración si la automatización, la robótica y la inteligencia artificial realmente toman su trabajo?

¿Cómo funciona una red neuronal generativa? ¿Cómo pueden crear imágenes?

¿Cómo funciona la Síntesis del Programa Bayesiano?

Cómo programar un software básico de estacionamiento autónomo

¿Cuál es la definición de 'procesamiento paralelo en inteligencia artificial'?

¿Cuándo sé que estoy listo para el aprendizaje automático?

¿Cómo define "inteligencia" en el contexto de la inteligencia artificial?

Web Analytics