Introduction

L'évaluation des modèles de machine learning est actuellement confrontée à deux problèmes majeurs : la saturation des benchmarks et le décalage entre les scores de benchmark et les performances réelles. Pour y remédier, Hugging Face propose une nouvelle approche décentralisée et transparente pour les évaluations, permettant à la communauté de partager et de comparer les résultats de manière ouverte.

Contexte Technique

Les benchmarks sur Hugging Face peuvent désormais accueillir des classements. Les modèles stockent leurs propres scores d'évaluation, et tout est interconnecté. La communauté peut soumettre des résultats via des pull requests, et des badges vérifiés attestent que les résultats peuvent être reproduits. Les évaluations sont définies via un fichier eval.yaml basé sur le format Inspect AI, ce qui permet à tous de reproduire les évaluations.

Analyse et Implications

L'approche décentralisée et transparente des évaluations devrait permettre de combler le fossé entre les scores de benchmark et les performances réelles. En effet, la communauté pourra désormais partager et comparer les résultats de manière ouverte, ce qui devrait conduire à une meilleure compréhension des forces et des faiblesses des modèles. Les implications concrètes de cette approche sont nombreuses, notamment la possibilité de créer des classements plus fiables et plus représentatifs, ainsi que la promotion d'une culture de transparence et de reproductibilité dans la communauté du machine learning.

Perspective

Il est important de noter que cette approche ne résoudra pas tous les problèmes liés aux évaluations, tels que la saturation des benchmarks ou le décalage entre les scores de benchmark et les performances réelles. Cependant, elle devrait contribuer à rendre le jeu plus visible en exposant ce qui est évalué, comment, quand et par qui. À l'avenir, il sera important de surveiller comment cette approche évolue et comment elle est adoptée par la communauté, ainsi que de continuer à développer de nouveaux benchmarks et de nouvelles tâches pour challenger les modèles existants.