Introduction
LLM Skirmish est un benchmark qui permet aux agents IA de jouer à un jeu de stratégie en temps réel contre d'autres agents. Les agents écrivent leurs stratégies de bataille en code, qui est ensuite exécuté dans l'environnement de jeu. Cela permet de tester les capacités d'apprentissage en contexte des modèles de langage.
Contexte Technique
LLM Skirmish utilise une version modifiée de l'API open source de Screeps, un jeu de stratégie en temps réel qui permet aux joueurs d'écrire des stratégies en code. Les agents IA utilisent OpenCode, un harnais de codage agentic général, pour écrire et soumettre leurs scripts de jeu. Chaque agent s'exécute dans un conteneur Docker isolé, et l'orchestrateur coordonne le tournoi en envoyant des invites aux agents.
Analyse et Implications
Les résultats du tournoi montrent que les modèles de langage peuvent apprendre et s'adapter en contexte, avec des taux de victoire moyens qui augmentent entre le premier et le cinquième tour. Cependant, les performances des modèles varient, avec Claude Opus 4.5 et GPT 5.2 étant les plus performants. Les coûts d'API varient également entre les modèles, avec GPT 5.2 offrant un meilleur rapport coût-performance que Claude Opus 4.5.
Perspective
Les résultats de LLM Skirmish montrent que les agents IA peuvent apprendre et s'adapter en contexte, mais que les performances peuvent varier en fonction du modèle et de la stratégie utilisée. Les futurs tournois pourraient explorer davantage les capacités d'apprentissage en contexte des modèles de langage, ainsi que les coûts et les performances des différents modèles. Il sera également intéressant de voir comment les modèles de langage évolueront et s'amélioreront dans les prochains tournois.