Introduction
Les chercheurs en IA et les laboratoires ont réalisé des progrès importants dans l'évaluation des modèles d'IA pour garantir leur sécurité, leur conformité et leur alignement. Cependant, les entreprises et les développeurs ont besoin d'outils pour tester les comportements spécifiques de leurs systèmes d'IA. Microsoft a récemment présenté ASSERT, un framework open source pour évaluer les comportements d'IA en utilisant des descriptions textuelles.
Contexte Technique
ASSERT utilise l'IA pour convertir des descriptions de buts, de politiques ou de comportements attendus en tests approfondis et notés. Il prend en entrée des descriptions en langage naturel, les convertit en un ensemble structuré de comportements acceptables et inacceptables, génère des scénarios de problèmes et des cas de test, les exécute contre le système cible et note les résultats. Les développeurs peuvent également fournir des informations de contexte, des outils et des contraintes pour personnaliser les évaluations.
Analyse et Implications
L'outil d'ASSERT remplit un vide dans les évaluations plus générales, car les modèles d'IA sont souvent conçus pour se comporter de manière spécifique dans un contexte d'application ou de produit. Selon Sarah Bird, directrice des produits de l'IA responsable chez Microsoft, les évaluations sont essentielles pour prendre de bonnes décisions et garantir que les systèmes d'IA sont fiables. ASSERT peut être utilisé pour évaluer les systèmes lors de leur construction, après leur déploiement et même pour un monitoring continu.
Perspective
La sortie d'ASSERT s'inscrit dans un mouvement plus large de l'industrie de l'IA, où les chercheurs se concentrent sur les tests répétitifs et les vérifications de régression. D'autres outils, tels que HELM de Stanford et AILuminate de MLCommons, sont également développés pour mesurer le comportement des modèles d'IA dans différentes conditions. Il est important de surveiller ces développements pour garantir que les systèmes d'IA soient conçus pour être fiables et sécurisés.