Introduction

Les modèles de langage à grande échelle (LLMs) sont-ils en train de perdre leur capacité à s'améliorer ? Une analyse récente suggère que les LLMs n'ont pas amélioré leurs capacités de programmation depuis plus d'un an.

Contexte Technique

Les LLMs sont évalués sur leur capacité à passer des tests et à produire du code de qualité. Cependant, les critères de succès peuvent varier, allant de « passer tous les tests » à « être approuvé par le mainteneur ». Les résultats montrent que les LLMs ont des performances nettement inférieures lorsqu'ils sont évalués selon des critères plus stricts.

Une analyse plus approfondie des taux de fusion de code (merge rates) révèle que les LLMs n'ont pas amélioré leurs capacités de programmation depuis le début de 2025. Les données suggèrent même une fonction étape ou constante, plutôt qu'une tendance linéaire ascendante.

Analyse et Implications

L'utilisation de la méthode de validation croisée leave-one-out et du score de Brier confirme que les modèles qui prédisent des taux de fusion constants sont plus précis que ceux qui supposent une croissance linéaire. Cela signifie que les LLMs n'ont pas amélioré leurs capacités de programmation depuis plus d'un an.

Cette constatation a des implications importantes pour le développement et l'utilisation des LLMs. Si les LLMs ne s'améliorent pas, cela pourrait limiter leur utilisation dans des domaines tels que la programmation et le développement de logiciels.

Perspective

Il est essentiel de surveiller les progrès des LLMs et de comprendre les limites de leurs capacités. Les développeurs et les utilisateurs doivent être conscients des limitations des LLMs et ne pas surestimer leurs capacités. Il est également important de continuer à investir dans la recherche et le développement pour améliorer les capacités des LLMs et les rendre plus fiables et efficaces.