Introduction
Le paysage de l'évaluation des modèles de langage arabes (LLM) est fragmenté, avec de nombreux benchmarks et tableaux de bord qui ne mesurent pas toujours ce qu'ils pensent mesurer. Pour répondre à ce problème, nous avons créé QIMMA, un tableau de bord de LLM arabes qui valide les benchmarks avant d'évaluer les modèles.
Contexte Technique
QIMMA combine cinq propriétés clés : il est open source, contient principalement du contenu arabe natif, effectue une validation de qualité systématique, évalue le code et fournit des sorties d'inférence publiques par échantillon. Il consolide 109 sous-ensembles de 14 benchmarks sources dans un ensemble d'évaluation unifié de plus de 52 000 échantillons, couvrant 7 domaines.
Le processus de validation de QIMMA implique deux modèles de langage de pointe qui évaluent chaque échantillon selon un rubric de 10 points. Les échantillons qui ne répondent pas aux critères sont éliminés ou soumis à une révision humaine pour garantir la qualité et la pertinence culturelle.
Analyse et Implications
Les résultats de QIMMA montrent que les modèles spécialisés dans la langue arabe peuvent performer mieux que les modèles multilingues dans certains domaines, mais que les modèles multilingues restent compétitifs. Les modèles de plus petite taille peuvent également performer bien dans des tâches intensives en raisonnement.
Les défis persistent, notamment dans le domaine du codage, où les modèles spécialisés dans la langue arabe ont du mal à atteindre des scores élevés. Cela suggère que le suivi des instructions de codage en arabe reste un défi ouvert dans le domaine.
Perspective
QIMMA offre une perspective unique sur les capacités des LLM arabes et met en évidence les domaines où les améliorations sont nécessaires. Il sera important de surveiller les progrès dans le domaine du codage et de continuer à améliorer la qualité des benchmarks pour garantir des évaluations justes et précises des modèles de langage.