Introduction
L'AssetOpsBench est un système de benchmark et d'évaluation complet qui comble le fossé entre les benchmarks d'agents IA et la réalité industrielle. Il est spécifiquement conçu pour évaluer les performances des agents dans des environnements industriels, en tenant compte de la complexité et des nuances des opérations réelles.
Contexte Technique
L'AssetOpsBench se compose de six dimensions qualitatives qui évaluent les performances des agents dans des scénarios industriels. Il comprend 2,3 millions de points de télémétrie de capteurs, 140 scénarios curés et 4 200 ordres de travail pour des scénarios divers. Les experts ont aidé à curer plus de 150 scénarios, chacun incluant des métadonnées telles que le type de tâche, le format de sortie, la catégorie et les sous-agents. Les tâches conçues couvrent la détection d'anomalies, la raison et la diagnostique des modes de défaillance, la prévision et l'analyse des indicateurs clés de performance, ainsi que la sommation et la priorisation des ordres de travail.
Analyse et Implications
L'AssetOpsBench évalue les systèmes agents sur six critères : achèvement de la tâche, précision de récupération, vérification des résultats, correction de la séquence, clarté et justification, ainsi que le taux d'hallucination. Les résultats montrent que de nombreux agents polyvalents performants sur les tâches de surface ont du mal avec la coordination multi-étapes impliquant des ordres de travail, des sémantiques de défaillance et des dépendances temporelles. Les agents qui modélisent explicitement le contexte opérationnel et l'incertitude tendent à produire des trajectoires plus stables et interprétables.
Perspective
L'AssetOpsBench offre une évaluation orientée vers la rétroaction, permettant aux développeurs de diagnostiquer les faiblesses, d'affiner les flux de travail des agents et de soumettre des agents améliorés. L'évaluation est conçue pour refléter les réalités de la gestion des actifs industriels, où une raison prudente et consciente de la dégradation est souvent préférable à une automatisation agressive mais fragile. Les développeurs sont invités à soumettre leurs implementations d'agents pour évaluation, ce qui permettra d'améliorer continuellement les performances et la robustesse des agents IA dans les environnements industriels.