Introduction

Mdarena est un outil qui permet de benchmarker vos fichiers CLAUDE.md contre vos propres Pull Requests (PR). Les fichiers CLAUDE.md sont souvent écrits sans réflexion approfondie, ce qui peut réduire les taux de réussite des agents et augmenter les coûts de plus de 20% en jetons. Mdarena vous permet de mesurer si votre fichier CLAUDE.md aide ou nuit à vos tâches.

Contexte Technique

Mdarena fonctionne en extrayant des PR fusionnées de votre référentiel, en les filtrant et en créant un ensemble de tâches. Il peut détecter automatiquement les commandes de test à partir de fichiers de configuration de votre référentiel, tels que les fichiers .github/workflows/*.yml, package.json, pyproject.toml, Cargo.toml et go.mod. Si les tests ne sont pas disponibles, Mdarena utilise une méthode de notation basée sur la superposition des différences.

Une fois les tâches créées, Mdarena peut exécuter vos tests réels pour évaluer les correctifs générés par l'agent, de la même manière que SWE-bench. Vous pouvez également spécifier manuellement les commandes de test et de configuration à utiliser.

Analyse et Implications

Les résultats d'une étude de cas utilisant Mdarena ont montré que le fichier CLAUDE.md existant améliorait la résolution des tests de environ 27% par rapport à la ligne de base. Cependant, une version consolidée des instructions qui combinait toutes les directives par répertoire en un seul fichier ne performait pas mieux qu'aucun fichier CLAUDE.md du tout.

Les résultats ont également montré que les fichiers d'instructions par répertoire fournissaient au l'agent un contexte ciblé pour les tâches difficiles, tandis que la version consolidée introduisait du bruit qui causait des régressions. Le fichier CLAUDE.md gagnant n'était pas le plus long ou le plus détaillé, mais celui qui fournissait le bon contexte au bon moment.

Perspective

Mdarena est un outil puissant pour évaluer et améliorer vos fichiers CLAUDE.md. Cependant, il est important de noter que Mdarena exécute du code à partir des référentiels qu'il évalue, ce qui peut présenter des risques de sécurité. Il est donc recommandé de n'utiliser Mdarena que sur des référentiels de confiance.

À l'avenir, il sera important de surveiller les mises à jour et les améliorations de Mdarena, ainsi que les résultats des études de cas qui utilisent cet outil. De plus, il sera intéressant de voir comment Mdarena peut être intégré à d'autres outils et workflows pour améliorer la qualité et la performance des agents IA.