Introduction

Les agents alimentés par des modèles de langage à grande échelle (LLM) ont démontré des capacités solides dans l'automatisation des tâches d'ingénierie logicielle, telles que la correction de bogues statiques. Cependant, dans le monde réel, le développement de logiciels matures implique souvent des changements de exigences complexes et des itérations de fonctionnalités à long terme, ce que les paradigmes de réparation statiques et ponctuels ne parviennent pas à capturer.

Contexte Technique

Pour combler cette lacune, nous proposons SWE-CI, le premier référentiel de benchmark construit sur la boucle d'intégration continue, visant à déplacer le paradigme d'évaluation pour la génération de code de la correction statique et à court terme vers la maintenabilité à long terme. Le benchmark se compose de 100 tâches, chacune correspondant en moyenne à une histoire d'évolution s'étalant sur 233 jours et 71 commits consécutifs dans un référentiel de code réel.

Analyse et Implications

SWE-CI nécessite que les agents résolvent systématiquement ces tâches à travers des dizaines de cycles d'analyse et d'itérations de codage. Cela fournit des informations précieuses sur la façon dont les agents peuvent maintenir la qualité du code tout au long de l'évolution à long terme. Les implications de cette recherche sont importantes, car elles pourraient conduire à des améliorations significatives dans la maintenance et la qualité des logiciels.

Perspective

Il est essentiel de surveiller les limites et les prochaines étapes de SWE-CI, notamment en termes de généralisation à différents types de référentiels de code et d'évaluation de la performance des agents dans des scénarios réels. Cela pourrait ouvrir de nouvelles perspectives pour l'amélioration de la maintenabilité et de la qualité des logiciels à l'aide de l'IA et du machine learning.