Introduction

Les modèles de langage ont considérablement évolué ces dernières années, avec une tendance vers des modèles plus denses et plus grands. Cependant, cette approche a des limites pratiques, notamment en termes de coût de formation, de latence d'inférence et de déploiement. C'est là que les Mixture of Experts (MoEs) entrent en jeu, en proposant une alternative pour améliorer l'efficacité et la rapidité des modèles.

Contexte Technique

Un modèle MoE conserve la structure de base d'un Transformer, mais remplace certaines couches denses par un ensemble d'experts. Chaque expert est un sous-réseau apprenable, et pour chaque jeton, un routeur sélectionne un sous-ensemble d'experts pour le traiter. Les experts sont sélectionnés en fonction de leurs représentations cachées, ce qui permet d'adapter le modèle à différents contextes.

Les MoEs offrent une meilleure efficacité de calcul, car ils permettent de réduire le nombre de paramètres actifs pendant l'inférence, tout en conservant la même capacité de modèle qu'un modèle dense. Cela se traduit par une vitesse d'inférence plus rapide et une meilleure efficacité énergétique.

Analyse et Implications

Les MoEs sont attractifs pour plusieurs raisons. Tout d'abord, ils offrent une meilleure efficacité de calcul, ce qui signifie que les modèles peuvent être formés plus rapidement et avec moins de ressources. Ensuite, les experts fournissent un axe de parallélisation naturel, ce qui permet de répartir le calcul sur plusieurs processeurs ou accélérateurs.

Les MoEs sont également adoptés par l'industrie, avec des modèles tels que Qwen 3.5, MiniMax M2, GLM-5 et Kimi K2.5. Les laboratoires fermés utilisent également les MoEs, comme le montre l'exemple de ChatGPT.

Perspective

Pour que les MoEs deviennent des citoyens de première classe dans les Transformers, il faut réaménager certaines parties de la chaîne de traitement, notamment la charge des modèles, l'exécution et les abstractions distribuées. Les outils tels que les bibliothèques de transformation doivent être adaptés pour prendre en compte les MoEs.

La mise en œuvre des MoEs nécessite une réflexion approfondie sur la manière de charger et d'exécuter les modèles. Les poids des experts doivent être chargés de manière efficace, ce qui nécessite une conversion des poids entre le format de stockage et le format d'exécution. Les opérations de conversion doivent être composables et flexibles pour s'adapter à différents scénarios d'utilisation.