Introduction

L'évaluation des modèles d'IA est actuellement confrontée à deux problèmes majeurs : la saturation des benchmarks et le décalage entre les scores de benchmark et les performances réelles. Pour y remédier, Hugging Face propose une nouvelle approche décentralisée et transparente pour les évaluations, permettant à la communauté de partager et de comparer les résultats de manière ouverte.

Contexte Technique

Les benchmarks sur Hugging Face peuvent désormais accueillir des classements. Les modèles stockent leurs propres scores d'évaluation, et tout est interconnecté. La communauté peut soumettre des résultats via des pull requests, et des badges vérifiés attestent que les résultats peuvent être reproduits. Les évaluations sont définies via des fichiers eval.yaml, basés sur le format Inspect AI, ce qui permet à tout le monde de reproduire les évaluations.

Analyse et Implications

L'approche décentralisée et transparente des évaluations devrait permettre d'exposer les scores qui existent déjà au sein de la communauté, issus de sources telles que des cartes de modèles et des articles de recherche. Cela permettra à la communauté de construire sur ces scores pour les agréger, les suivre et les comprendre à l'échelle du domaine. Les scores seront également exposés via les API du Hub, facilitant ainsi la création de tableaux de bord et de classements ciblés. Les implications concrètes incluent une meilleure compréhension des forces et des faiblesses des modèles, ainsi qu'une amélioration de la réproducibilité des résultats.

Perspective

Cette nouvelle approche ne résoudra pas les problèmes de saturation des benchmarks ni le décalage entre les scores de benchmark et les performances réelles, mais elle rendra le processus d'évaluation plus visible et transparent. Il est important de surveiller comment cette approche évolue, en particulier en ce qui concerne la mise en place de nouveaux benchmarks et la participation de la communauté. Les prochaines étapes incluront l'expansion de cette fonctionnalité à davantage de benchmarks et l'intégration de la communauté dans le processus d'évaluation.