Introduction

L'échec des agents vocaux est souvent spécifique à un domaine. Un système qui traite parfaitement les codes de confirmation alphanumériques dans les transactions de réacheminement de vols peut avoir des difficultés à gérer des politiques complexes dans les systèmes RH. Les différents domaines testent la capacité d'un agent à s'adapter à différents vocabulaires, complexités de workflow et attentes des utilisateurs.

Contexte Technique

Avec cette nouvelle version, EVA-Bench passe d'un à trois domaines d'entreprise : la gestion de la relation client aérienne (CSM), la gestion des services informatiques (ITSM) et la livraison de services RH dans le domaine de la santé (HRSD). Ces trois domaines couvrent 213 scénarios d'évaluation sur 121 outils, soit une augmentation d'environ 4 fois de la couverture des scénarios par rapport à la version originale. Chaque scénario a été validé pour sa solvabilité contre trois modèles de pointe (OpenAI GPT-5.4, Google Gemini 3.1 Pro et Anthropic Claude Opus 4.6) pour garantir que le benchmark est à la fois difficile et équitable.

Les ensembles de données sont générés à l'aide d'un pipeline de génération de données synthétiques basé sur des graphes, appelé SyGra, avec GPT-5.4 comme colonne vertébrale. Chaque scénario nécessite trois composants cohérents générés conjointement pour éviter les incohérences qui surviennent lorsque les composants sont produits indépendamment : l'objectif de l'utilisateur, la base de données initiale du scénario et l'état final attendu de la base de données (vérité terrain).

Analyse et Implications

EVA-Bench est conçu pour plusieurs publics. Si vous évaluez un agent vocal, vous pouvez l'exécuter contre un ensemble diversifié de scénarios réalistes d'entreprise couvrant plus de 35 flux de travail distincts. Si vous créez votre propre ensemble de données d'évaluation, cet article décrit le processus de génération et de validation de bout en bout en enough détail pour servir de référence pratique.

Cinq principes ont guidé la conception des ensembles de données EVA-Bench dans tous les domaines : la portée vocale, le réalisme, la variété, l'authentification et la reproductibilité. Les scénarios sont conçus pour être réalistes, avec des schémas d'outils modélisés après les API d'une plate-forme de production et des politiques de scénario tirées de contraintes d'entreprise réelles.

Perspective

La prochaine étape pour EVA-Bench sera l'extension multilingue, qui élargira la portée du benchmark au-delà des déploiements d'entreprise uniquement en anglais. Cela permettra d'évaluer les agents vocaux dans différents contextes linguistiques et culturels, renforçant ainsi leur capacité à s'adapter à divers environnements et utilisateurs.