
Un programme d’intelligence artificielle développé par l’Université Carnegie Mellon en collaboration avec Facebook AI a vaincu les meilleurs professionnels du poker Texas Hold’em No-Limit à six joueurs, la forme de poker la plus populaire du monde.
L’IA, baptisée Pluribus, a battu le professionnel du poker Darren Elias, qui détient le record de la plupart des titres du World Poker Tour, et Chris « Jesus » Ferguson, vainqueur de six épreuves des World Series of Poker. Chaque pro a joué séparément 5000 mains de poker contre cinq copies de Pluribus.
Dans une autre expérience impliquant 13 pros, qui ont tous gagné plus d’un million de dollars en jouant au poker, Pluribus a joué cinq pros à la fois pour un total de 10 000 mains et a de nouveau gagné.
Pluribus, une IA de poker créée par l’Université Carnegie Mellon et Facebook, bluffe massivement contre les joueurs professionnels… et gagne. Courtoisie : Facebook
« Pluribus a réalisé des performances surhumaines au poker multijoueur, ce qui est un jalon reconnu dans l’intelligence artificielle et dans la théorie des jeux ouverte depuis des décennies « , a déclaré Tuomas Sandholm, Professeur en science informatique, qui a développé Pluribus avec Noam Brown, qui termine son doctorat en informatique au département de recherche scientifique de Carnegie Mellon à Facebook AI. « Jusqu’à présent, les étapes surhumaines de l’intelligence artificielle dans le raisonnement stratégique ont été limitées à la concurrence bipartite. La capacité de battre cinq autres joueurs dans un jeu aussi compliqué ouvre de nouvelles possibilités d’utiliser l’IA pour résoudre une grande variété de problèmes du monde réel. »
Dans cet exemple, une intelligence artificielle de poker créée par Carnegie Mellon et Facebook tend un piège aux joueurs de poker professionnels et lui permet de gagner. Courtoisie : Facebook
Un article de recherche, « Superhuman AI for Multiplayer Poker », a été publié en ligne par la revue Science le jeudi 11 juillet.
« Jouer à un jeu à six plutôt qu’à un face à face exige des changements fondamentaux dans la façon dont l’IA développe sa stratégie de jeu « , a déclaré Noam Brown, qui a rejoint Facebook AI l’année dernière. « Nous sommes ravis de ses performances et pensons que certaines stratégies de jeu de Pluribus pourraient même changer la façon dont les pros y jouent. »
Les algorithmes de Pluribus ont créé des caractéristiques surprenantes dans sa stratégie. Par exemple, la plupart des joueurs humains évitent de « parier sur un « âne » (donk betting : un âne au poker est un joueur de niveau très faible), c’est-à-dire de terminer un tour par une annonce, puis de commencer le tour suivant par un pari. C’est perçu comme un geste faible qui n’a généralement pas de sens stratégique. Mais Pluribus pariait beaucoup plus souvent que les professionnels qu’il battait.
Une IA de poker créée par l’Université Carnegie Mellon et Facebook reconnaît qu’un joueur de poker professionnel bluffe probablement, puis appelle. Courtoisie : Facebook
« Sa principale force réside dans sa capacité à utiliser des stratégies mixtes « , a déclaré Darren Elias la semaine dernière, alors qu’il se préparait pour l’événement principal des World Series of Poker 2019. « C’est la même chose que les humains essaient de faire. C’est une question d’exécution pour les humains – de le faire d’une manière parfaitement aléatoire et cohérente. La plupart des gens ne peuvent pas. »
Pluribus a réalisé une solide victoire avec une signification statistique, ce qui est particulièrement impressionnant étant donné son opposition, a dit Darren Elias. « Le robot ne jouait pas seulement contre des pros du milieu de la route. Il jouait contre certains des meilleurs joueurs du monde. »
Michael « Gags » Gagliano, qui a gagné près de 2 millions de dollars en gains de carrière, a aussi fait concurrence à Pluribus.
« C’était incroyablement fascinant de jouer contre le robot de poker et de voir certaines des stratégies qu’il a choisies », a déclaré Michael Gagliano. « Il y a eu plusieurs actions que les humains ne font tout simplement pas du tout, surtout ce qui a trait à sa taille de pari. Les Bots/AI jouent un rôle important dans l’évolution du poker, et c’était incroyable d’avoir une expérience de première main dans ce grand pas vers l’avenir. »
Tuomas Sandholm a dirigé une équipe de recherche qui étudie le poker informatique depuis plus de 16 ans. Lui et Noam Brown ont plus tôt développé Libratus, qui il y a deux ans a battu de façon décisive quatre pros du poker en jouant une combinaison de 120 000 mains de Texas Hold’em Heads-Up No-Limit, une version à deux joueurs du jeu.
Des jeux comme les échecs et le Go ont longtemps été des étapes pour la recherche sur l’IA. Dans ces jeux, tous les joueurs connaissent le statut du plateau de jeu et toutes les pièces. Mais le poker est un plus grand défi parce que c’est un jeu d’information incomplet : les joueurs ne peuvent pas être certains des cartes qui sont en jeu et les adversaires peuvent et vont bluffer. Cela en fait à la fois un défi plus difficile à relever pour l’IA et plus pertinent pour de nombreux problèmes du monde réel impliquant de multiples parties et des informations manquantes.
Toutes les IA qui ont fait preuve de compétences surhumaines dans les jeux à deux joueurs l’ont fait en se rapprochant de ce qu’on appelle un équilibre de Nash. Nommé en l’honneur de l’ancien élève de Carnegie Mellon et lauréat du prix Nobel John Forbes Nash Jr, un équilibre de Nash est une paire de stratégies (une par joueur) où aucun joueur ne peut bénéficier d’un changement de stratégie tant que la stratégie de l’autre joueur demeure la même. Bien que la stratégie de l’IA garantisse seulement que le résultat n’est pas pire qu’une égalité, l’IA sort victorieuse si son adversaire fait des erreurs de calcul et ne peut maintenir l’équilibre.
Dans un jeu à plus de deux joueurs, jouer un équilibre de Nash peut être une stratégie perdante. Pluribus renonce donc aux garanties théoriques de succès et développe des stratégies qui lui permettent néanmoins de surpasser constamment ses adversaires.
Pluribus calcule d’abord une stratégie « blueprint » en jouant six copies de lui-même, ce qui est suffisant pour le premier tour de mise. A partir de là, Pluribus fait une recherche plus détaillée des mouvements possibles dans une abstraction plus fine du jeu. Il imagine plusieurs coups à l’avance, mais n’a pas besoin de le faire jusqu’à la fin de la partie, ce qui serait prohibitif sur le plan du calcul. La recherche à visée limitée est une approche standard dans les jeux d’information parfaite, mais elle est extrêmement difficile dans les jeux d’information imparfaite. Un nouvel algorithme de recherche à visée limitée est la principale percée qui a permis à Pluribus de réaliser un poker multijoueur surhumain.
Plus précisément, la recherche est une résolution imparfaite de jeu d’information d’un sous-jeu limité à imaginer des coups à l’avance. A la fin de ce sous-jeu, l’IA envisage cinq stratégies possibles pour continuer, chaque adversaire et elle-même pourraient en adopter une pour le reste de la partie. Le nombre de stratégies de continuité possibles est beaucoup plus grand, mais les chercheurs ont constaté que leur algorithme n’a besoin que de considérer cinq stratégies de poursuite par joueur à chaque jeu pour calculer une stratégie globale solide et équilibrée.
Pluribus cherche aussi à être imprévisible. Par exemple, parier serait logique si l’IA tenait la meilleure main possible, mais si l’IA parie seulement quand elle a la meilleure main, les adversaires s’accrocheront rapidement. Pluribus calcule donc comment il agirait avec chaque main qu’il pourrait tenir et calcule ensuite une stratégie équilibrée à travers toutes ces possibilités.
Bien que le poker soit un jeu incroyablement compliqué, Pluribus a fait un usage efficace du calcul. Les IA qui ont atteint des étapes récentes dans les jeux ont utilisé un grand nombre de serveurs et/ou de fermes de GPU ; Libratus a utilisé environ 15 millions d’heures de base pour développer ses stratégies et, pendant le jeu en direct, a utilisé 1 400 cœurs de CPU. Pluribus a calculé sa stratégie de Blueprint en huit jours en utilisant seulement 12 400 heures de calculs et seulement 28 cœurs pendant le jeu en direct.
Tuomas Sandholm a fondé deux entreprises, Strategic Machine Inc. et Strategy Robot Inc, qui ont exclusivement licencié des technologies de raisonnement stratégique développées dans son laboratoire Carnegie Mellon au cours des 16 dernières années. Strategic Machine applique les technologies au poker, aux jeux, aux affaires et à la médecine, tandis que Strategy Robot les applique à la défense et au renseignement.
Pluribus s’appuie sur cette technologie et ce code et en intègre une grande partie. Il inclut également du code spécifique au poker, écrit en collaboration entre Carnegie Mellon et Facebook pour la présente étude, qui ne sera pas appliqué aux applications de défense. Pour tout autre type d’utilisation, les parties sont convenues qu’elles peuvent utiliser le code additionnel comme elles le souhaitent.
La National Science Foundation et le Army Research Office ont soutenu les recherches de Carnegie Mellon. Le Pittsburgh Supercomputing Center a fourni des ressources informatiques grâce à une allocation XSEDE examinée par des pairs. Grâce aux fonds fournis par Facebook, Elias et Ferguson ont chacun reçu 2 000 $ pour leur participation à l’expérience, et Ferguson a reçu 2 000 $ de plus pour avoir surclassé Elias. Les 13 pros qui ont joué contre un Pluribus individuel ont partagé 50 000 $, selon leur performance.
https://www.cmu.edu/news/stories/archives/2019/july/cmu-facebook-ai-beats-poker-pros.html
http://www.cs.cmu.edu/~sandholm/
https://www.cmu.edu/news/stories/archives/2019/june/brown-named-innovator.html
https://science.sciencemag.org/lookup/doi/10.1126/science.aay2400
https://www.cmu.edu/news/stories/archives/2017/january/AI-beats-poker-pros.html