Introduction

Un modèle de langage chinois, Kimi K2.6, a remporté un défi de programmation en battant des modèles tels que Claude, GPT-5.5 et Gemini. Ce défi, appelé Word Gem Puzzle, consiste à résoudre un puzzle de lettres en déplaçant des tuiles pour former des mots valides.

Contexte Technique

Le défi a été organisé dans le cadre d'un concours de codage en IA, où des modèles de langage ont été mis en compétition pour résoudre des tâches de programmation en temps réel. Le Word Gem Puzzle est un puzzle de lettres où les joueurs doivent déplacer des tuiles pour former des mots valides. Le scoring récompense les mots plus longs et pénalise les mots courts.

Les modèles ont joué cinq manches, une par taille de grille, avec une limite de temps de dix secondes par manche. Les grilles ont été remplies de lettres et de mots valides, avec des fréquences de lettres basées sur les fréquences de lettres du Scrabble.

Analyse et Implications

Kimi K2.6 a remporté le défi avec une approche agressive, en déplaçant les tuiles pour former des mots valides. MiMo V2-Pro, le deuxième modèle, a utilisé une approche plus conservatrice, en cherchant des mots valides dans la grille initiale. Les modèles de Claude, GPT-5.5 et Gemini ont eu des performances plus faibles, en partie en raison de leur incapacité à déplacer les tuiles de manière efficace.

Les résultats montrent que les modèles qui peuvent déplacer les tuiles de manière agressive ont un avantage dans ce type de défi. Cependant, les résultats doivent être interprétés avec prudence, car le scoring du défi peut récompenser les modèles qui sont plus agressifs dans leur approche.

Perspective

Ce défi montre l'importance de la capacité des modèles de langage à prendre des décisions en temps réel et à écrire du code fonctionnel. Les résultats suggèrent que les modèles qui peuvent déplacer les tuiles de manière agressive ont un avantage dans ce type de défi. Cependant, il est important de noter que les résultats doivent être interprétés avec prudence, car le scoring du défi peut récompenser les modèles qui sont plus agressifs dans leur approche.

Il est également important de noter que ce défi ne remet pas en question les benchmarks généraux des modèles de langage. Cependant, il montre que les modèles de langage chinois, tels que Kimi K2.6, peuvent être compétitifs dans des défis de programmation en temps réel.