Introduction
Les modèles d'embedding multilingues font face à un dilemme persistant : une large couverture linguistique est souvent au détriment de la taille du modèle, et les petits modèles sacrifient généralement des langues. Les modèles Granite Embedding Multilingual R2 visent à réduire cet écart en proposant deux nouveaux modèles d'embedding multilingues.
Contexte Technique
Les modèles Granite Embedding Multilingual R2 sont construits sur l'architecture ModernBERT, qui revisite la conception originale de BERT en intégrant des techniques de recherche sur les transformateurs des cinq dernières années. Cette architecture apporte plusieurs avantages pratiques, tels que des longueurs d'attention alternées qui réduisent les calculs sur les longues séquences, des embeddings de position rotatifs qui permettent une fenêtre de contexte de 32K sans interpolation de position, et un support Flash Attention 2.0 qui accélère l'encodage sur les GPU modernes.
Les nouveaux tokenizers multilingues sont également dignes d'intérêt. Plutôt que de réutiliser le vocabulaire de 250K tokens de XLM-RoBERTa, les modèles adoptent des tokenizers existants avec une forte couverture multilingue et de code. Le modèle de 311M utilise le tokenizer Gemma 3 (262K tokens), tandis que le modèle de 97M utilise le tokenizer GPT-OSS et le réduit à un vocabulaire compact de 180K tokens qui préserve une large couverture multilingue tout en réduisant l'empreinte paramétrique de la table d'embedding.
Analyse et Implications
Les modèles Granite Embedding Multilingual R2 offrent une qualité de récupération multilingue exceptionnelle, avec un score de 60,3 sur le benchmark MTEB Multilingual Retrieval pour le modèle de 97M, et un score de 65,2 pour le modèle de 311M. Ces résultats sont supérieurs à ceux des autres modèles d'embedding multilingues ouverts sous 100M de paramètres.
Les modèles sont entraînés sur un mélange de données IBM-curated, de données publiques et de données internes générées ou synthétiques. Les données publiques utilisées pour l'entraînement sont sélectionnées et filtrées à l'aide de processus de qualité, de déduplication et de gouvernance développés par IBM, destinés à réduire les risques dans les utilisations commerciales en aval.
Perspective
Les modèles Granite Embedding Multilingual R2 offrent une solution prometteuse pour les applications qui nécessitent une large couverture linguistique et une qualité de récupération élevée. Les utilisateurs peuvent choisir entre le modèle de 97M et le modèle de 311M en fonction de leurs besoins spécifiques et de leurs contraintes de ressources. Les futurs travaux pourraient se concentrer sur l'amélioration de la qualité de récupération, l'extension de la couverture linguistique et l'optimisation des performances pour les applications réelles.