Introduction

L'évaluation de l'IA est devenue un goulet d'étranglement pour le calcul, avec des coûts qui dépassent ceux de l'entraînement. Le Holistic Agent Leaderboard (HAL) a récemment dépensé environ 40 000 $ pour exécuter 21 730 déroulements d'agents sur 9 modèles et 9 références, tandis qu'un seul déroulement de GAIA peut coûter 2 829 $ avant mise en cache.

Contexte Technique

Les mécanismes d'évaluation de l'IA sont devenus de plus en plus complexes, avec des architectures et des références qui nécessitent des ressources importantes. Les coûts d'évaluation peuvent varier considérablement en fonction du modèle, de la référence et de la tâche. Par exemple, Claude Opus 4.1 facture 15 $ par million de jetons d'entrée et 75 $ par million de jetons de sortie, tandis que Gemini 2.0 Flash facture 0,10 $ et 0,40 $, soit une différence de deux ordres de grandeur pour les seuls jetons d'entrée.

Analyse et Implications

Les implications de ces coûts sont importantes, car ils peuvent limiter l'accès à l'évaluation de l'IA pour les petits acteurs et les chercheurs. De plus, les coûts élevés ne garantissent pas nécessairement de meilleurs résultats. Par exemple, sur la tâche Online Mind2Web, Browser-Use avec Claude Sonnet 4 a coûté 1 577 $ pour une précision de 40 %, tandis que SeeAct avec GPT-5 Medium a atteint 42 % de précision pour 171 $.

Perspective

Il est important de surveiller les limites et les prochaines étapes de l'évaluation de l'IA, notamment en termes de coûts et de complexité. Les recherches actuelles visent à réduire les coûts d'évaluation, par exemple en utilisant des méthodes de compression ou des références plus efficaces. Cependant, ces approches doivent être évaluées avec prudence, car elles peuvent également affecter la qualité des résultats.