Introduction

L'année dernière, les outils d'IDE agents et le codage vibe sont devenus mainstream. Cependant, les systèmes d'entreprise, tels que les paiements et les mainframes, ne sont pas perturbés par ces nouvelles technologies. Les codebases d'entreprise sont énormes, nécessitent un contexte massif et ont très peu de données de formation publiques pour que les modèles puissent apprendre.

Contexte Technique

Pour les codebases d'entreprise, le modèle seul ne suffit pas, ce qui met l'accent sur l'importance de l'harnais ou de la couche d'orchestration. Blitzy, une plateforme de développement logiciel agente, a récemment obtenu un score de 66,5 % sur SWE-Bench Pro Public, l'un des principaux benchmarks de codage IA. Le modèle de base actuel sur ce benchmark est GPT-5.4, qui a obtenu un score de 57,7 %.

SWE-Bench Pro Public est géré par Scale AI, une entreprise qui vend principalement des données aux propriétaires de modèles. Ils n'ont pas d'incitation à valider les harnais, mais seulement les modèles de base.

Analyse et Implications

Les tests récents sur un benchmark de planification ont montré qu'un harnais peut offrir une amélioration pour Gemini 3.1 Pro, Claude Opus 4.6 et GPT 5.4 par rapport à leurs versions natives. C'est là que Quesma intervient : nous avons vérifié de manière indépendante si un harnais peut réellement surpasser les modèles bruts dans ces environnements complexes et quel est l'avantage réel.

Blitzy se décrit comme une plateforme de développement logiciel autonome conçue spécifiquement pour les codebases d'entreprise complexes et de grande taille. Son interface diffère considérablement des outils de terminal ou des intégrations de l'IDE auxquels les ingénieurs sont habitués.

Perspective

Les résultats de Blitzy ont été vérifiés et les limites du modèle brut sont claires. La prise est simple : nous avons vu la différence dans la dernière étape de garantie que le code fonctionne réellement. Les agents de codage basés sur le terminal fonctionnent souvent avec une mentalité « les doigts croisés ». Ils s'engagent et poussent avec enthousiasme, mais lorsqu'on leur demande s'ils ont réellement exécuté les tests, les modèles admettent qu'ils ne l'ont pas fait, mais insistent sur le fait que le code « devrait fonctionner ».

C'est la différence fondamentale entre un stagiaire enthousiaste et un développeur logiciel senior. Il est très probable que l'avantage de performance de Blitzy soit encore plus prononcé dans les projets d'entreprise à code source fermé, en particulier ceux qui reposent sur des technologies rares ou des frameworks internes.