artificial intelligenceGamingNoticiaspokerScienceTC

AI fuma 5 campeões de poker de uma só vez em No Limit Hold'em com “consistência implacável”

As máquinas provaram sua superioridade em jogos um-a-um, como xadrez e go, e até mesmo pôquer – mas em versões multiplayer complexas dos jogos de cartas, os humanos mantiveram sua vantagem … até agora. Uma evolução do último agente da IA ​​para desconcertar os profissionais de poker individualmente está agora decisivamente a derrotá-los no jogo de 6 jogadores em estilo de campeonato.

Como documentado em um artigo publicado na revista Science hoje , a colaboração CMU / Facebook que eles chamam de Pluribus bate de forma confiável cinco jogadores profissionais de pôquer no mesmo jogo, ou um profissional contra cinco cópias independentes de si mesmo. É um grande avanço na capacidade das máquinas e, surpreendentemente, também é muito mais eficiente do que os agentes anteriores também.

O poker one-on-one é um jogo estranho, e não simples, mas a natureza de soma zero dele (o que você perder, o outro jogador ganha) o torna suscetível a certas estratégias em que o computador consegue calcular o suficiente pode se colocar em vantagem. Mas adicione mais quatro jogadores à mistura e as coisas ficam realmente complexas, muito rápidas.

Com seis jogadores, as possibilidades de mãos, apostas e resultados possíveis são tão numerosas que é efetivamente impossível contabilizar todas elas, especialmente em um minuto ou menos. Seria como tentar documentar exaustivamente cada grão de areia em uma praia entre as ondas.

No entanto, mais de 10.000 mãos jogadas com campeões, o Pluribus conseguiu ganhar dinheiro a uma taxa constante, não expondo pontos fracos ou hábitos que seus oponentes pudessem aproveitar. Qual o segredo? Aleatoriedade consistente.

Até os computadores se arrependem

Pluribus foi treinado, como muitos agentes de IA que jogam games atualmente, não estudando como os humanos jogam, mas jogando contra si mesmo. No começo, isso é provavelmente como assistir crianças, ou, no que diz respeito a mim, jogar pôquer – erros constantes, mas pelo menos a IA e as crianças aprendem com eles.

O programa de treinamento usava algo chamado minimização de pesar contrafatual de Monte Carlo . Parece quando você toma uísque no café da manhã depois de perder sua camisa no cassino, e de certa forma é – estilo de aprendizado de máquina.

Minimização de arrependimento significa apenas que quando o sistema terminaria uma mão (contra si mesmo, lembre-se), ele jogaria essa mão novamente de formas diferentes, explorando o que poderia ter acontecido se tivesse sido verificado aqui em vez de aumentado, dobrado em vez de chamado e em breve. (Como isso realmente não aconteceu, é contrafactual .)

Uma árvore de Monte Carlo é uma maneira de organizar e avaliar muitas possibilidades, como escalar uma árvore delas ramo por galho e observar a qualidade de cada folha que você encontra, depois escolher a melhor uma vez que você acha que subiu o suficiente.

Se você fizer isso antes do tempo (isso é feito no xadrez, por exemplo), você está procurando o melhor movimento para escolher. Mas se você combiná-lo com a função de arrependimento, você está procurando em um catálogo de maneiras possíveis que o jogo poderia ter ido e observando qual teria o melhor resultado.

Portanto, a minimização do remorso contrafactual Monte Carlo é apenas uma forma de investigar sistematicamente o que poderia ter acontecido se o computador tivesse agido de forma diferente e ajustado o seu modelo de como jogar em conformidade.

traverserj

O jogo começou originalmente como você vê à esquerda, com uma perda. Mas o motor explora outros caminhos em que poderia ter feito melhor.

É claro que o número de jogos é quase infinito se você quiser considerar o que aconteceria se tivesse apostado $ 101 em vez de $ 100, ou você teria ganho aquela grande mão se tivesse um kicker oito em vez de um sete. Aí também está o arrependimento quase infinito, do tipo que mantém você na cama em seu quarto de hotel até o último almoço.

A verdade é que essas pequenas mudanças importam tão raramente que a possibilidade pode basicamente ser inteiramente ignorada. Nunca será realmente importante apostar um dinheirinho extra – portanto, qualquer aposta dentro de, digamos, 70 e 130 pode ser considerada exatamente igual pelo computador. O mesmo acontece com as cartas – se o valete é um coração ou uma pá não importa, exceto em situações muito específicas (e geralmente óbvias), então 99,999% do tempo em que as mãos podem ser consideradas equivalentes.

Esta “abstração” de sequências de jogabilidade e “bucketing” de possibilidades reduz muito as possibilidades que o Pluribus tem que considerar. Também ajuda a manter baixa a carga de cálculo; O Pluribus foi treinado em um rack de servidor de 64 núcleos relativamente comum durante cerca de uma semana, enquanto outros modelos podem levar anos de processador em clusters de alta potência. Ele ainda roda em uma plataforma (reconhecidamente robusta) com duas CPUs e 128 GB de RAM.

Aleatório como uma raposa

O treinamento produz o que a equipe chama de um “plano” de como jogar, que é fundamentalmente forte e que provavelmente derrotaria muitos jogadores. Mas uma fraqueza dos modelos de IA é que eles desenvolvem tendências que podem ser detectadas e exploradas.

No artigo do Facebook sobre Pluribus, ele fornece o exemplo de dois computadores que jogam pedra-papel-tesoura. Um escolhe aleatoriamente enquanto o outro sempre escolhe rock. Teoricamente eles ganhariam a mesma quantidade de jogos. Mas se o computador tentasse a estratégia totalmente humana em um humano, ele começaria a perder com rapidez e nunca pararia.

Como um exemplo simples no poker, talvez uma série particular de apostas sempre faça com que o computador vá all-in independentemente de sua mão. Se um jogador conseguir localizar essa série, ele poderá levar o computador para a cidade a qualquer momento que desejar. Encontrar e prevenir sulcos como esses é importante para criar um agente de jogo que possa vencer seres humanos engenhosos e observadores.

Para fazer isso, o Pluribus faz algumas coisas. Primeiro, ele modificou as versões de seu projeto para colocar em jogo, caso o jogo se incline para o fold, call ou raise. Diferentes estratégias para diferentes jogos significam que é menos previsível, e pode mudar em um minuto se os padrões de aposta mudarem e a mão passar de uma aposta para uma de bluff.

Ele também se engaja em uma busca introspectiva curta, mas abrangente, olhando como ele jogaria se tivesse todas as outras mãos, de um grande nada até um straight flush, e como ele apostaria. Em seguida, ele escolhe sua aposta no contexto de todos aqueles, com cuidado para fazê-lo de tal forma que não aponte para ninguém em particular. Com a mesma mão e a mesma jogada novamente, o Pluribus não escolheria a mesma aposta, mas sim a variação para permanecer imprevisível.

Essas estratégias contribuem para a “aleatoriedade consistente” a que aludi anteriormente, e que faziam parte da capacidade do modelo de colocar alguns dos melhores jogadores do mundo de forma lenta mas confiável.

O lamento do ser humano

Há muitas mãos para apontar para uma ou dez em particular que indicam o poder que o Pluribus estava trazendo para o jogo. O poker é um jogo de habilidade, sorte e determinação, e um em que os vencedores surgem após apenas dezenas ou centenas de mãos.

E aqui deve ser dito que a configuração experimental não é inteiramente reflexiva de um jogo de pôquer comum de 6 pessoas. Ao contrário de um jogo real, as contagens de fichas não são mantidas como um total contínuo – para cada mão, cada jogador recebia 10.000 fichas para usar como bem entendesse, e ganhar ou perder recebiam 10.000 fichas na próxima mão também.

interface

A interface usada para jogar poker com o Pluribus. Chique!

Obviamente, isso limita as estratégias de longo prazo possíveis e, de fato, “o bot não estava procurando por pontos fracos em seus oponentes que pudessem explorar”, disse Noam Brown, cientista de pesquisa da Facebook AI. Verdadeiramente, Pluribus estava vivendo no momento como poucos humanos conseguem.

Mas simplesmente porque não estava baseando seu jogo em observações de longo prazo dos hábitos ou estilos individuais dos oponentes, não significa que sua estratégia fosse superficial. Pelo contrário, é sem dúvida mais impressionante, e lança o jogo em uma luz diferente, que existe uma estratégia vencedora que não depende de pistas comportamentais ou exploração de fraquezas individuais.

Os profissionais que tinham o dinheiro do almoço tomado pelo implacável Pluribus eram bons esportes, no entanto. Eles elogiaram a jogabilidade de alto nível do sistema, a validação das técnicas existentes e o uso inventivo de novas técnicas. Aqui está uma seleção de lamentos dos humanos caídos:

Eu fui um dos primeiros jogadores a testar o bot, então pude ver suas versões anteriores. O bot passou de um jogador medíocre a competir com os melhores jogadores do mundo em poucas semanas. Sua maior força é a capacidade de usar estratégias mistas. É a mesma coisa que os humanos tentam fazer. É uma questão de execução para os humanos – fazer isso de uma maneira perfeitamente aleatória e fazê-lo consistentemente. Também foi gratificante ver que muitas das estratégias que o bot emprega são coisas que já fazemos no poker ao mais alto nível. Ter suas estratégias mais ou menos confirmadas como corretas por um supercomputador é uma boa sensação. -Darren Elias

Foi incrivelmente fascinante começar a jogar contra o bot de poker e ver algumas das estratégias que escolheu. Houve várias peças que os humanos simplesmente não estão fazendo, especialmente relacionadas ao tamanho das suas apostas. -Michael ‘Gags’ Gagliano

Sempre que estou jogando o bot, sinto que pego algo novo para incorporar ao meu jogo. Como seres humanos, acho que tendemos a simplificar o jogo por nós mesmos, tornando as estratégias mais fáceis de serem adotadas e lembradas. O bot não pega nenhum desses atalhos e tem uma árvore de jogo imensamente complicada / balanceada para cada decisão. -Jimmy Chou

Em um jogo que, na maioria das vezes, recompensa quando você exibe disciplina mental, foco e consistência, e certamente o castiga quando você não tem nenhum dos três, competindo por horas a fio contra um bot de IA que obviamente não o faz tem que se preocupar com essas deficiências é uma tarefa cansativa. Os detalhes técnicos e os detalhes profundos da habilidade de pôquer do bot do AI foram notáveis, mas o que eu subestimei foi sua força mais transparente – sua consistência implacável. -Sean Ruane

Bater nos humanos no poker é apenas o começo. Por mais que seja um bom jogador, o Pluribus é, mais importante, uma demonstração de que um agente de IA pode alcançar um desempenho sobre-humano em algo tão complicado quanto o poker de 6 jogadores.

“Muitas interações do mundo real, como mercados financeiros, leilões e navegação de tráfego, podem ser modeladas de forma semelhante como interações multiagentes com comunicação limitada e conluio entre os participantes”, escreve o Facebook em seu blog.

Sim e guerra.

Etiquetas

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo