Introduction
DeepSWE est un benchmark pour les agents de codage qui offre quatre avancées majeures par rapport aux benchmarks publics actuels. Il s'agit d'un benchmark exempt de contamination, avec des tâches écrites à partir de zéro, sans adaptation de commits ou de pull requests existants. Les tâches couvrent un large éventail de 91 référentiels sur 5 langages, avec des prompts courts et naturels qui reflètent la façon dont les développeurs interagissent avec leurs agents.
Contexte Technique
Les benchmarks existants ont des limites, notamment en termes de contamination et de diversité des tâches. SWE-bench Pro, le benchmark leader pour les agents de codage, a des tâches qui nécessitent en moyenne seulement 120 lignes de code pour être résolues, et notre audit a révélé que son vérificateur échoue à évaluer correctement les sorties des agents à des taux de 8% de faux positifs et 24% de faux négatifs. DeepSWE, en revanche, produit une comparaison plus précise des agents de codage, avec des tâches qui nécessitent plus de code et de tokens de sortie pour être résolues.
Analyse et Implications
Les implications de DeepSWE sont importantes, car il offre une évaluation plus réaliste des capacités des agents de codage. Les résultats montrent que les agents qui apparaissent proches les uns des autres sur les benchmarks publics se séparent en écarts importants qui reflètent les différences que les développeurs voient dans leur travail quotidien. Cela signifie que les entreprises et les développeurs peuvent avoir confiance dans les résultats de DeepSWE pour évaluer les capacités de leurs agents de codage.
Perspective
Il est important de surveiller les limites et les prochaines étapes de DeepSWE, notamment en termes de couverture de langages et de référentiels. Les résultats de DeepSWE pourraient également être utilisés pour améliorer les agents de codage existants et pour développer de nouveaux agents plus performants. Enfin, la communauté devrait être consciente des risques de contamination et de la nécessité de benchmarks exempt de contamination pour évaluer les capacités des agents de codage de manière réaliste.