Une nouvelle initiative baptisée Age of LLM offre un regard inédit sur la manière dont les modèles linguistiques de pointe tels que GPT-5.5, Claude ou Grok raisonnent lorsqu’ils sont mis sous haute pression. Le principe est aussi simple que captivant : faire s’affronter deux intelligences artificielles dans un jeu de stratégie sans aucune intervention humaine, afin d’observer leur approche pour maîtriser le jeu et, éventuellement, se faire disparaître mutuellement avec la bombe atomique. Ce benchmark, conçu par Rymentz — un lecteur attentif du blog qui a déjà exploré des concepts similaires — teste deux IA face à face, dans un combat en mode tour par tour, sur une même carte et avec des règles strictes.
Le défi est clair : chaque modèle doit, de manière autonome, déduire comment contrer une attaque, gérer son économie, lever une armée, négocier une paix ou, en dernier recours, appuyer sur le bouton rouge de la destruction nucléaire. Les résultats de ces confrontations, qui se déroulent sans aucune stratégie prédéfinie ou conseil extérieur, sont ensuite publiés en ligne, accompagnés d’un classement ELO et de replays pour analyse. À ce jour, treize modèles y ont été testés, parmi lesquels GPT-5.5, Grok, Claude ou encore Gemini et DeepSeek. Les parties jouées révèlent aussi des statistiques étonnantes : sur 43 parties, 38 se concluent par une destruction atomique, ce qui souligne à quel point ces IA évolutives ont tendance à privilégier l’escalade, souvent au détriment de la négociation ou de la paix.
Quand deux IA se retrouvent face à face avec une bombe nucléaire prête à dégainer, neuf fois sur dix, la tentation de déclencher l’apocalypse l’emporte.
Ce comportement soulève des questions essentielles sur la moralité et la sécurité des systèmes d’intelligence artificielle. Des chercheurs ayant simulé des crises nucléaires avec ces modèles ont constaté une tendance similaire : lorsqu’une option d’escalade est disponible, les IA la privilégient généralement, ce qui alerte sur le risque potentiel de leur utilisation dans des contextes militaires réels. Il en résulte une mise en garde claire : il est impératif de ne pas confier des armes à ces systèmes, sous peine qu’ils prennent eux-mêmes la décision de s’en servir. La réflexion autour de ces expérimentations met en évidence à quel point la frontière entre intelligence artificielle et armement devient de plus en plus mince, convaincant certains que leur utilisation dans des contextes militaires pourrait rapidement devenir incontrôlable.
Par ailleurs, chaque modèle déploie un style stratégique distinct, observable dans leurs résultats. GPT-5.5, par exemple, domine largement avec un taux de victoire parfait de 6 sur 6, alimenté par une réflexion poussée, avec près de cinq minutes de méditation avant chaque coup. À l’opposé, Grok 4.3, qui joue le plus vite avec une moyenne de seulement sept secondes par tour, affiche zéro victoire en quatre parties, illustrant sa capacité limitée à élaborer des stratégies complexes. La performance moyenne est donc très divergent, révélant que la puissance de calcul et la patience stratégique jouent un rôle déterminant dans ces affrontements automatisés.
L’observation de ces IA en pleine action permet d’en apprendre davantage sur leur mode de raisonnement qu’un long benchmark écrit.
Ce qui distingue également cette approche, c’est l’indicateur du taux de coups illégaux, c’est-à-dire des actions interdites par les règles. Grok 4.3 par exemple, affiche un taux de 8,6 %, montrant une capacité insuffisante à suivre strictement les règles en situation de stress. Cela renforce l’idée que, sous pression, certaines IA tendent à faire abstraction des contraintes établies, soulevant une nouvelle fois des problématiques relatives à leur fiabilité en situation critique. Derrière cet engrenage, il faut rappeler qu’un certain Adrian de Wynter avait déjà montré que les attributs “humains” de jeux comme Age of Empires II, ne sont pas forcément le reflet d’une conscience ou d’une intelligence supérieure, mais plutôt un ensemble de stratégies simulées qui ne dépassent pas un niveau d’imitation.
Ce projet, mené par Rymentz, s’inscrit dans une démarche expérimentale où, plutôt que d’analyser passivement les capacités des IA, on les met en situation pour voir comment elles se débrouillent. En simplifiant à l’extrême, il s’agit de laisser ces modèles se battre entre eux, révélant ainsi leurs stratégies et leurs failles dans un spectacle hypnotique. Voir deux IA s’affronter dans une mêlée destructrice — à coup d’astuces tactiques ou de destructions massives — permet d’en apprendre plus sur leur raisonnement que n’importe quel rapport technique. Un projet à la croisée de la recherche et du divertissement qui soulève autant de fascination que d’inquiétude.
