¿Cómo puede una máquina de póquer AI vencer a jugadores humanos?

La máquina no tiene cara de póker y las máquinas manejan mal la información incompleta.

Bueno, jugué más de 10 millones de manos de póker en mi vida (ahora tengo 24), lo que me coloca en el 1% del 1% (del 1%, probablemente) de los jugadores con más manos jugadas.
Todos fueron jugados en línea.
En vivo podría haber jugado 2 o 3 horas cuando era menor de edad, sin dinero involucrado (menos de 60 manos, suponiendo 20 manos / hora).

La cara de póker no es lo que te hace ganar o perder.

Los avisos están sobrevalorados entre los jugadores débiles.
Si un jugador fuerte dice algo, probablemente lo esté fingiendo.
Phil Hellmuth es considerado un pez entre muchos, pero probablemente sus habilidades para leer a los oponentes lo dicen muy bien.
Esto lo convierte en un muy buen ganador en torneos en vivo (perfil de Phil Hellmuth Jr en The Hendon Mob), pero en el juego de efectivo en línea con apuestas medias estaría en una gran dificultad.

El juego de póker es complejo, contrario a la creencia popular.

¿Cómo puede una máquina de póquer AI vencer a jugadores humanos?

No tengo dudas de que la “IA del póker” habría vencido a los humanos si estuvieran jugando una y otra vez … La IA es demasiado inteligente, tienen demasiado poder mental.

Por supuesto, este desafío fue estructurado de una manera realmente pobre.

  • Las manos se reflejaron

Dong Kim tenía las manos entregadas a la IA cuando la IA jugaba con Jason Les, y Daniel MCauley tenía las manos entregadas a la IA cuando la IA jugaba con Jimmy Chou. Entonces, no necesariamente es Dong Kim el mejor jugador, puede que haya servido las mejores manos.

Además, esta forma de usar “manos reflejadas” no reduce la variación, como señala Dong Kim a los 14 minutos aproximadamente:

Reduce la volatilidad.

Una vez que los humanos sintieron que iban a perder, comenzaron a correr más riesgos, por ejemplo, abriendo 6 veces desde el botón, lo cual es totalmente poco convencional. Si estás perdiendo, intentas movimientos desesperados , y puedes ver en el cuadrante superior izquierdo que la pendiente es más grande después de 75,000 manos.

Las horas de juego fueron desgarradoras … Piensa en ello, generalmente juegas en línea cuando estás en tu juego A, cuando puedes rendir al máximo.
Si está perdiendo, está cansado, no puede concentrarse, renuncia.
Sabes que tu oponente te jugará mañana. No pudieron porque CMU hizo estas reglas, los humanos no se molestaron porque subestimaron lo cansados ​​que estarían. Si estás “en inclinación” (en la jerga) es más probable que juegues mal y pierdas.


Este fue otro desafío este año: esta IA supuestamente puede vencer a los expertos en el póker No-Limit Texas Hold’em

Este es el papel:
https://arxiv.org/pdf/1701.01724…

En 2015 cerebros vs humanos: cerebros vs. Inteligencia artificial: la computadora Carnegie Mellon se enfrenta a los profesionales del póker en la épica competencia sin límites Texas Hold’Em-CMU News – Universidad Carnegie Mellon

¿Qué tiene de especial esta tecnología que le permite vencer a los humanos en juegos en los que se supone que los humanos son mejores?

Cladico (la IA de 2015) quedó abrumado por el problema de la inversión, es decir: los humanos apostaban 1bb y el bot no podía desarrollar contramedidas porque quien lo programó decidió incluir la apuesta de X a X + K como igual.
Por lo tanto, un ser humano inteligente invocaría 1bb en un bote de 20bb, mientras se retiraba a una apuesta de 9-10bb. Los humanos apostaban 1bb en lugar de 9bb para explotar esta debilidad, ya que para el bot era lo mismo.

Las reglas de ese desafío no hicieron posible que el bot fuera reprogramado durante los juegos.

Alberta y CMU resolvieron el problema de la inversión.

Alberta decidió no resolver el árbol, sino utilizar una función entrenada que determina la heurística del valor de las posiciones en el árbol. (Estoy traduciendo / copiando del italiano)

Podemos suponer que esto es lo que hizo Libratus (el bot de 2016).

El algoritmo utilizado para encontrar el GTO es la minimización de arrepentimiento confactual.
Para cada movimiento, el algoritmo da una probabilidad proporcional al arrepentimiento de no haberlo jugado antes.
El bot se juega a sí mismo y de esta manera descubre cómo jugar Game Theory Optimal.
Si el bot se enfrenta a un jugador explotable, el bot encontrará la mejor respuesta a la estrategia del oponente, si el oponente está jugando una estrategia equilibrada, el bot encontrará la mejor estrategia para la estrategia del oponente promedio.
Desafortunadamente, este Algo debería ser capaz de extrapolar un árbol de 10 ^ 160 nodos, mientras que con la tecnología actual solo pueden resolver un árbol de 10 ^ 14 nodos.
Alberta resolvió esto usando una red neuronal, el algo no introduce ningún sesgo y puede modificarse si falla la estrategia falla.

Básicamente, la IA estaba jugando como ningún humano:
Jason: abrí JJ llamó. Flop 872 rainbow, aposté alrededor de 2/3 pot y todo fue por 200bb con KTo. Esto no es necesariamente “tonto”, pero fue bastante “WTF”
https://www.reddit.com/r/IAmA/co…


En este momento, la IA no puede usar GTO en juegos con más de 2 jugadores, pero estoy seguro de que tienen una ventaja sobre los humanos incluso allí.

“Primero vinieron por los jugadores de ajedrez, y no dije nada, porque no era un jugador de ajedrez.
Luego vinieron por los jugadores go, y no dije nada, porque no era un jugador go.
Luego vinieron por los jugadores de póker … “

Cuidado, ellos vendrán a tomar tu trabajo también …

Hay dos bots de ai poker en los titulares. Uno es deepstack por la Universidad de Alberta y otro es libratus por cmu. Deep stack usa el aprendizaje profundo de una manera muy similar a alphago pero libratus usa una versión personalizada de minimización de arrepentimiento contrafactual. Ambos son muy poderosos por sí mismos y probablemente serán increíbles si se combinan.

La forma de ganar en el póker es identificar qué está haciendo mal tu oponente y explotarlo. Si están demasiado apretados, farolean, si farolean demasiado, jueguen fuerte. Y si juegan con sus oreo cuando tienen las nueces, puedes acostar a un monstruo, pero a diferencia de Mike McDermott, NUNCA deberías hacérselo saber.

La estrategia de las computadoras es probar y jugar la teoría del juego óptima. En otras palabras, el objetivo es ser inexplorable. Independientemente de la estrategia que intente, en el mejor de los casos alcanzará el equilibrio a largo plazo. Los jugadores que recientemente jugaron y perdieron ante una computadora eran algunos de los mejores del mundo en lo que respecta a la teoría del póker, y no pudieron encontrar suficientes fugas, como dicen.

Las computadoras programadas por expertos en teoría de juegos indudablemente van a vencer a cualquier humano, si no ahora, lo suficientemente pronto. Todo tiene que ver con las matemáticas y los grandes cálculos, y los humanos son inferiores en lo que respecta a esto último.

¿Dices que los programas no tienen cara de póker? Tienen una cara de póker inmejorable , es decir, ninguna cara en absoluto.

Una cara de póker en realidad no importa si juegas las cartas en lugar de los jugadores. Y no es cierto que las máquinas sean pobres en el manejo de información incompleta. Eso solía ser cierto, una vez, pero se ha logrado una gran cantidad de progreso en los sistemas de aprendizaje automático que manejan bien la información incompleta.

Jugando al póker como yo.

Aquellos de nosotros que surgieron durante el auge del póker en línea no estábamos jugando en una mesa frente a otras personas, sino a través del éter. No teníamos que preocuparnos por las caras de póker, por contar o nada de eso, pero teníamos que encontrar otra forma de estimar lo que tenían nuestros oponentes.

Tiene mucho sentido, especialmente para aquellos de nosotros que caemos en la categoría de Aspie que habita el mundo de la pareidolia.

Jugamos en base a patrones de apuestas .

No podría importarme menos lo que el tipo que está al otro lado de la mesa está haciendo con sus ojos, su boca o sus manos. Me importa lo que esté haciendo con sus fichas. Y cada vez que hay un enfrentamiento y veo sus cartas, obtengo más información.

(Consejo [semi] profesional: es por eso que nunca muestras voluntariamente. Incluso si estás tratando de inclinar a alguien. A menos que sea Phil, o algún otro jugador ultra volátil, porque eso es una distracción para el resto de la mesa).

Si alguien está haciendo una apuesta de continuación, qué cartas acertadas son mucho menos importantes para la forma en que voy a responder que lo que se apuesta. ¿Mi oponente ha mostrado una propensión a apostar medio pozo sin importar qué? ¿O es alguien que ha apostado sondas de medio bote y 2/3–3 / 4 cuando se conecta el tablero? En el último caso, voy a subir cada vez que mi oponente lanza una apuesta de medio bote. Cada vez. Porque mi oponente está buscando información. Incluso si estoy sosteniendo 2-7o en un tablero con tres cartas de cara del mismo palo, estoy subiendo. Porque si varío mi juego, eso le da a mi oponente la información exacta que estoy tratando de extraer.

No hace falta decir que no soy una máquina, y de ninguna manera soy infalible. Si lo fuera, no tendría un trabajo diario. (Y sí, me siento aquí en mi trabajo diario haciendo esto todo el maldito día).

La máquina tampoco es infalible, porque si puedes descubrir qué está haciendo y cómo se está adaptando, puedes adelantarte un paso. Como resultado, los primeros resultados son solo eso: primeros resultados. Esta vez el año que viene, los profesionales habrán vencido a Libratus. No todos, pero algunos de los mejores.

Respuesta corta: intente obtener la mayor cantidad de información posible. Y, especialmente cuando estás jugando Libratus, trata de dar la menor información posible. Porque como yo, a Libratus le importa un comino lo que haces con cualquier cosa que no sean tus fichas.

La PC puede jugar extremadamente bien en Limit Holdem debido a la cantidad limitada de apuestas. En NoLimit simplemente no puede vencer a los humanos porque no puede adaptarse como humano.