Introduction

Artificial Analysis et IBM Research lancent ITBench-AA, la première série de benchmarks évaluant les modèles sur des tâches d'entreprise IT agentic, en commençant par les tâches de Site Reliability Engineering (SRE) où les modèles de pointe obtiennent des scores inférieurs à 50%.

Contexte Technique

ITBench-AA évalue les performances des modèles sur des tâches de réponse aux incidents Kubernetes, où les modèles et les agents doivent diagnostiquer des systèmes en direct en lisant les journaux, en traçant les dépendances et en identifiant les entités de cause profonde à travers des infrastructures complexes. Le jeu de données sous-jacent ITBench a été développé par IBM Research, en exploitant l'expertise approfondie d'IBM en matière d'opérations IT d'entreprise.

Les tâches nécessitent aux agents d'enquêter sur des instantanés d'incidents Kubernetes à l'aide de commandes shell et de soumettre un diagnostic structuré au format JSON identifiant les entités de cause profonde responsables. Les modèles soumettent une liste d'entités de cause profonde qu'ils pensent avoir provoqué l'incident, qui sont ensuite comparées à un ensemble de causes profondes de référence fournies par IBM Research.

Analyse et Implications

Les résultats montrent que les modèles de pointe, tels que Claude Opus 4.7 et GPT-5.5, obtiennent des scores inférieurs à 50%, ce qui suggère que les tâches SRE sont particulièrement difficiles pour les modèles actuels. De plus, les résultats montrent que les modèles qui soumettent des entités de cause profonde supplémentaires au-delà de la cause profonde réelle sont pénalisés, ce qui signifie que les modèles qui fournissent des réponses plus détaillées ne sont pas nécessairement plus précis.

Les coûts associés à l'exécution des modèles varient également considérablement, allant de 0,14 $ par tâche pour Gemma 4 31B (Reasoning) à 5,38 $ par tâche pour Claude Opus 4.7 (Adaptive Reasoning, Max Effort). Cela souligne l'importance de prendre en compte les coûts lors de la sélection des modèles pour les tâches d'entreprise IT agentic.

Perspective

Les résultats d'ITBench-AA soulignent les limites actuelles des modèles de pointe pour les tâches d'entreprise IT agentic et mettent en évidence la nécessité de développer des modèles plus performants et plus efficaces pour ces types de tâches. Les futurs travaux devraient se concentrer sur l'amélioration de la précision et de la rentabilité des modèles, ainsi que sur l'exploration de nouvelles approches pour les tâches d'entreprise IT agentic.