Introduction
L'Open ASR Leaderboard a été visité plus de 710 000 fois depuis son lancement en septembre 2023, démontrant l'intérêt de la communauté pour l'amélioration de la reconnaissance vocale. Pour prévenir les risques de contamination des jeux de données de test et de « benchmaxxing », des données privées de haute qualité ont été ajoutées au leaderboard.
Contexte Technique
Les données privées proviennent d'Appen Inc. et de DataoceanAI, et couvrent à la fois la parole écrite et conversationnelle avec différents accents. Les données sont conservées privées pour garantir une mesure de performance de haute qualité sur plusieurs tâches. Le leaderboard calcule la moyenne des taux d'erreur de mots (WER) sur les jeux de données publics et privés séparément.
La standardisation et l'ouverture sont essentielles pour un benchmarking significatif, mais elles rendent également les benchmarks plus sensibles à l'optimisation spécifique au benchmark. L'Open ASR Leaderboard vise à capturer les nuances de la performance ASR et à fournir une vue plus holistique.
Analyse et Implications
L'ajout de données privées vise à prévenir la contamination des jeux de données de test et à améliorer la robustesse des modèles. Les données privées sont moins susceptibles d'être exploitées pour le « benchmaxxing », ce qui signifie que les modèles améliorent leur performance sur le leaderboard sans gains correspondants dans la robustesse du monde réel.
Les données privées permettent de fournir des métriques ciblées pour mettre en évidence les lacunes et les biais entre les paramètres contrôlés et les conditions plus nuancées. Les utilisateurs peuvent choisir d'inclure ou d'exclure les données privées dans la moyenne des WER pour adapter l'évaluation à leurs cas d'utilisation spécifiques.
Perspective
L'Open ASR Leaderboard continuera à incorporer des jeux de données de haute qualité et de nouveaux paramètres d'évaluation pour mieux refléter les performances du monde réel et améliorer la robustesse contre l'optimisation spécifique au benchmark. La communauté est invitée à fournir des commentaires sur les nouvelles fonctionnalités et les futures évaluations qui reflèteront mieux les conditions bruyantes du monde réel.