ScarfBench : Évaluation des Agents IA pour la Migration de Frameworks Java

Introduction

Les récents progrès dans les agents de codage ont suscité un grand intérêt pour la modernisation assistée par l'IA. Cependant, une question importante demeure : les agents IA peuvent-ils moderniser de manière fiable les applications d'entreprise réelles ?

Contexte Technique

Les benchmarks de génie logiciel existants ont démontré des progrès impressionnants dans la correction de bogues et la génération de code, mais la migration de framework présente un défi fondamentalement différent. Le succès nécessite non seulement la traduction du code, mais également la préservation du comportement, l'adaptation des systèmes de construction et la navigation des dépendances à l'exécution.

Pour répondre à cette lacune, nous présentons ScarfBench (Self-Contained Application Refactoring Benchmark), un benchmark ouvert pour évaluer les agents IA sur les tâches de migration de framework dans les applications Java d'entreprise. ScarfBench se concentre sur les migrations entre trois grands écosystèmes Java : Spring, Jakarta EE et Quarkus.

Analyse et Implications

Les résultats montrent que même les agents les plus performants actuels n'atteignent pas 10 % de succès comportemental, illustrant l'écart entre la génération de code compilable et la préservation du comportement de l'application. Les difficultés de migration dépendent fortement du framework cible, Jakarta EE s'avérant particulièrement difficile.

Les agents IA ont du mal à gérer les dépendances et les problèmes d'environnement, tels que les incohérences de cache Docker, les problèmes de connectivité de port et les problèmes d'outils de construction Maven. Ces préoccupations opérationnelles retardent souvent la validation, même lorsque la migration du code source est largement terminée.

Perspective

ScarfBench aide à exposer ces défis et fournit une méthode standardisée pour mesurer les progrès vers une modernisation d'application vraiment autonome. Les chercheurs et les praticiens peuvent utiliser ScarfBench pour évaluer les solutions de modernisation avant de les déployer dans des environnements de production. Nous invitons les chercheurs, les praticiens et les communautés de framework à évaluer leurs agents, à contribuer de nouveaux scénarios de migration et à faire progresser l'état de l'art.

ScarfBench : Évaluation des Agents IA pour la Migration de Frameworks Java

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

La spécialisation, une nécessité dans l'IA

Intégration d'EEE à Hugging Face pour des évaluations de modèles fiables

DiScoFormer : Un modèle de transformation pour la densité et le score

Exécuter un serveur vLLM sur HF Jobs en une commande

ScarfBench : Évaluation des Agents IA pour la Migration de Frameworks Java

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

La spécialisation, une nécessité dans l'IA

Intégration d'EEE à Hugging Face pour des évaluations de modèles fiables

DiScoFormer : Un modèle de transformation pour la densité et le score

Exécuter un serveur vLLM sur HF Jobs en une commande

Sauvegarder l'article