Introduction

Les laboratoires d'IA mettent régulièrement à jour leurs modèles après leur lancement, introduisant parfois des « nerfs » tels que la censure agressive, la quantification excessive ou la dégradation du comportement. Un graphique permet d'exposer ces tendances cachées.

Contexte Technique

Les tests de performance des modèles sont effectués via des points de terminaison API, qui représentent le « modèle brut ». Les interfaces de chat pour les consommateurs ajoutent souvent des invites de système, des filtres de sécurité et des enveloppes spécifiques à l'interface utilisateur qui ne sont pas présentes dans l'API brute. Les fournisseurs peuvent également basculer en silence vers des versions quantifiées (à précision inférieure) des modèles pour économiser les coûts de calcul pendant les périodes de charge de pointe, ce qui peut entraîner une « dégradation » perçue qui n'est pas entièrement capturée par les benchmarks API.

Les données sont récupérées automatiquement quotidiennement à partir du jeu de données officiel du classement de l'Arena LM sur Hugging Face. L'Arena repose sur des milliers d'évaluations humaines aveugles et crowdfundées, ce qui en fait la mesure la plus robuste de la capacité réelle du modèle.

Analyse et Implications

Chaque laboratoire d'IA majeur a exactement une courbe représentant sa lignée phare. À chaque point dans le temps, la courbe suit le modèle phare éligible le mieux noté du laboratoire sur le classement – et non juste le plus récemment annoncé.

Les variantes de mode d'inférence sont regroupées, de sorte que les suffixes tels que « -thinking », « -reasoning » et « -high » sont considérés comme le même modèle sous-jacent dans un mode différent. Les nouvelles versions sont affichées sous forme de points de repère avec des étiquettes, souvent accompagnées d'un saut dans le score.

Perspective

Il est important de surveiller l'évolution des modèles IA pour comprendre les tendances et les performances. Les dégradations des modèles entre les versions sont clairement visibles, et les nouvelles versions sont affichées de manière claire. Il est également important de noter que les fournisseurs peuvent modifier silencieusement les modèles pour économiser les coûts de calcul, ce qui peut avoir un impact sur les performances perçues.