Introduction

L'article présente EMO, un nouveau modèle de mélange d'experts (MoE) pré-entraîné de manière à ce que la structure modulaire émerge directement des données sans recourir à des a priori définis par l'homme. EMO permet d'utiliser un petit sous-ensemble de ses experts pour une tâche donnée tout en conservant les performances du modèle complet.

Contexte Technique

Les modèles de langage sont généralement entraînés et déployés comme des systèmes monolithiques. Cependant, les applications n'ont souvent besoin que d'un sous-ensemble de capacités. Les modèles MoE semblent être une solution naturelle pour répondre à cette contrainte. Ils contiennent de nombreux réseaux plus petits, appelés experts, et n'activent qu'un petit sous-ensemble pour chaque jeton d'entrée.

Cependant, les modèles MoE existants ont besoin du modèle complet pour fonctionner correctement. Les experts dans les MoE standard ont tendance à se spécialiser dans des modèles lexicaux de bas niveau plutôt que dans des domaines ou des capacités de niveau supérieur. Cela rend difficile l'utilisation de petits sous-ensembles d'experts de manière fiable.

Analyse et Implications

EMO est un modèle MoE pré-entraîné avec la modularité comme objectif principal. Les utilisateurs peuvent sélectionner un petit sous-ensemble d'experts pour une tâche ou un domaine donné tout en conservant les performances du modèle complet. Cela permet de déployer le modèle de manière flexible avec des compromis mémoire-précision améliorés pour les grands MoE.

Le modèle EMO utilise des frontières de document comme signal de supervision faible pour encourager les experts à former des groupes spécialisés dans des domaines spécifiques. Les tokens d'un même document sont restreints à utiliser un sous-ensemble partagé d'experts, ce qui favorise la formation de groupes d'experts cohérents.

Perspective

Les résultats montrent que EMO peut conserver les performances du modèle complet même lorsqu'un petit sous-ensemble d'experts est utilisé. Cela ouvre des perspectives pour le déploiement de modèles de langage plus efficaces et plus flexibles. Les futures recherches pourraient se concentrer sur l'amélioration de la modularité et de la flexibilité des modèles MoE, ainsi que sur l'exploration de nouvelles applications pour ces modèles.