Introduction

L'arabe est l'une des langues les plus parlées au monde, avec des centaines de millions de locuteurs répartis sur plus de vingt pays. Cependant, l'arabe n'est pas une langue monolithique, mais plutôt un ensemble de dialectes régionaux qui diffèrent significativement en vocabulaire, syntaxe, phonologie et ancrage culturel. Les dialectes sont le moyen principal de communication quotidienne, de récits oraux, de poésie et d'interaction sociale. Malgré cela, la plupart des benchmarks existants pour les modèles de langage arabe se concentrent presque exclusivement sur l'arabe standard moderne, laissant les dialectes arabes sous-évalués et sous-représentés.

Contexte Technique

Pour répondre à cette limitation, l'équipe a introduit Alyah, un benchmark centré sur le dialecte émirati conçu pour évaluer la capacité des modèles de langage arabe à capturer les aspects linguistiques, culturels et pragmatiques du dialecte émirati. Le benchmark couvre un large éventail de contenus, notamment des expressions locales courantes et peu courantes, des salutations ancrées culturellement, des anecdotes courtes, des questions liées au patrimoine et des références à la poésie émiratie. Chaque échantillon est formulé comme une question à choix multiple avec quatre réponses candidates, dont une seule est correcte.

Analyse et Implications

L'évaluation a porté sur un total de 54 modèles de langage, comprenant 23 modèles de base et 31 modèles réglés par instruction, couvrant plusieurs paradigmes architecturaux et de formation. Les résultats montrent que les modèles réglés par instruction surpassent généralement leurs homologues de base, en particulier pour les questions impliquant des normes conversationnelles et des réponses culturellement appropriées. Les catégories les plus difficiles pour les modèles étaient systématiquement « Langue et dialecte » et « Salutations et expressions quotidiennes ». Ces résultats reflètent l'état actuel de la présence du dialecte émirati dans les médias écrits, qui est rarement écrit et donc novateur par rapport aux modèles évalués.

Perspective

Les résultats de l'évaluation d'Alyah mettent en évidence la nécessité d'une formation spécifique aux dialectes pour améliorer les performances des modèles de langage arabe. Les modèles multilingues forts montrent une dégradation notable sur les questions les plus difficiles d'Alyah, suggérant que les connaissances sémantiques spécifiques aux dialectes ne sont pas facilement acquises par une formation multilingue générique seule. Il est essentiel de continuer à développer et à affiner des benchmarks comme Alyah pour évaluer et améliorer les capacités des modèles de langage arabe dans les dialectes régionaux.