Introduction

L'intégration de l'IA dans les logiciels est en constante évolution. Les agents IA travaillent de plus en plus avec nos logiciels, et il est essentiel de concevoir ces logiciels pour qu'ils soient utilisables de manière efficace par les agents. Cela nécessite non seulement que le code soit correct et rapide, mais également qu'il soit conçu pour être utilisé de manière efficiente par les agents.

Contexte Technique

Les mécanismes de benchmarking traditionnels se concentrent généralement sur la réponse finale, mais nous voulons évaluer l'ensemble du processus, y compris le travail effectué par l'agent pour obtenir la réponse. Nous avons développé un outil de benchmark spécifique pour évaluer la façon dont les agents utilisent les logiciels, en utilisant les transformateurs comme étude de cas.

Nous sommes partisans de deux principes de conception de logiciels : si cela n'est pas testé, cela ne fonctionne pas, et si cela n'est pas documenté, cela n'existe pas. Ces principes sont particulièrement importants lors de la conception de logiciels pour les agents IA, car les agents ont besoin d'une documentation claire et d'une API bien conçue pour utiliser efficacement les logiciels.

Analyse et Implications

Nos résultats montrent que les agents peuvent obtenir les mêmes réponses, mais avec des profils de coût, de latence et d'utilisation de jetons très différents. Cela souligne l'importance de prendre en compte l'ensemble du processus, et non seulement la réponse finale, lors de l'évaluation des logiciels pour les agents IA.

Nous avons également constaté que les modèles plus grands et plus capables peuvent obtenir les réponses correctes, mais que les métriques telles que le pourcentage de correspondance sont plus pertinentes pour les modèles locaux plus petits.

Perspective

Notre outil de benchmark fournit des conseils aux mainteneurs de bibliothèques sur la façon d'améliorer les répertoires pour les interactions avec les agents, et aide à évaluer les performances des différents agents et modèles sur les tâches qui importent aux utilisateurs.

Il est essentiel de continuer à développer et à améliorer les outils de benchmark pour les logiciels conçus pour les agents IA, afin de garantir que les logiciels soient conçus pour être utilisés de manière efficace et efficiente par les agents.