Introduction
Les agents de Modèles de Langage (LLM) démontrent de solides performances dans la génération autonome de code sous des spécifications laxistes. Cependant, les logiciels de production nécessitent une adhésion stricte aux contraintes structurelles, telles que les modèles d'architecture, les bases de données et les mappages objet-relationnel.
Contexte Technique
Les benchmarks existants ont souvent tendance à négliger ces exigences non fonctionnelles, récompensant ainsi les solutions fonctionnellement correctes mais structurellement arbitraires. Une étude systématique a été menée pour évaluer la capacité des agents à gérer les contraintes structurelles dans la génération de code backend multi-fichiers.
En fixant un contrat d'API unifié sur 80 tâches de génération de code et 20 tâches d'implémentation de fonctionnalités couvrant huit frameworks web, les chercheurs ont isolé l'effet de la complexité structurelle à l'aide d'une évaluation double avec des tests de comportement de bout en bout et des vérificateurs statiques.
Analyse et Implications
Les résultats révèlent un phénomène de déclin des contraintes : à mesure que les exigences structurelles s'accumulent, les performances des agents connaissent un déclin substantiel. Les configurations capables perdent en moyenne 30 points sur les taux de passage d'assertion des tâches de base aux tâches entièrement spécifiées, tandis que certaines configurations plus faibles approchent zéro.
L'analyse de sensibilité des frameworks expose des disparités de performance significatives : les agents réussissent dans les frameworks minimaux et explicites (par exemple, Flask) mais performe nettement moins en moyenne dans les environnements à conventions lourdes (par exemple, FastAPI, Django).
Perspective
Enfin, l'analyse des erreurs identifie les défauts de la couche de données (par exemple, la composition incorrecte de requêtes et les violations d'exécution ORM) comme les principales causes racines. Ce travail met en évidence que la satisfaction conjointe des exigences fonctionnelles et structurelles reste un défi clé ouvert pour les agents de codage.