Introduction
L'arabe est l'une des langues les plus parlées au monde, avec des centaines de millions de locuteurs dans plus de vingt pays. Cependant, l'arabe n'est pas une langue monolithique, et les dialectes régionaux diffèrent considérablement en vocabulaire, syntaxe, phonologie et ancrage culturel. Les benchmarks existants pour les modèles de langage arabes se concentrent principalement sur l'arabe moderne standard, laissant les dialectes arabes sous-évalués et sous-représentés.
Contexte Technique
Pour répondre à cette limitation, l'équipe a introduit Alyah, un benchmark centré sur le dialecte émirati, conçu pour évaluer la capacité des modèles de langage arabes à capturer les aspects linguistiques, culturels et pragmatiques du dialecte émirati. Le benchmark couvre un large éventail de contenus, notamment des expressions locales communes et rares, des salutations ancrées culturellement, des anecdotes courtes, des questions liées au patrimoine et des références à la poésie émiratie. Chaque échantillon est formulé comme une question à choix multiple avec quatre réponses candidates, dont une seule est correcte.
Analyse et Implications
L'évaluation a porté sur 54 modèles de langage, comprenant 23 modèles de base et 31 modèles ajustés aux instructions, couvrant plusieurs paradigmes architecturaux et de formation. Les résultats montrent que les modèles ajustés aux instructions surpassent généralement leurs homologues de base, en particulier pour les questions impliquant des normes conversationnelles et des réponses culturellement appropriées. Les catégories les plus difficiles pour les modèles étaient systématiquement « Langue et dialecte » et « Salutations et expressions quotidiennes ». Ces résultats reflètent l'état actuel de la présence du dialecte émirati dans les médias écrits, qui est rarement écrit.
Perspective
Les résultats de l'évaluation d'Alyah mettent en évidence la nécessité de former les modèles de langage pour comprendre les dialectes régionaux, en particulier pour les applications conversationnelles et culturellement ancrées. Les modèles multilingues forts montrent une dégradation notable sur les questions les plus difficiles d'Alyah, suggérant que les connaissances sémantiques spécifiques au dialecte ne peuvent pas être acquises facilement par la formation multilingue générique seule. Il est essentiel de continuer à développer et à affiner les benchmarks comme Alyah pour améliorer la robustesse et la précision des modèles de langage arabes.