Introduction

JetBrains lance Mellum2, un modèle IA de 12 milliards de paramètres basé sur une architecture Mixture-of-Experts, conçu pour les tâches de traitement de langage et de code à faible latence. Ce modèle est optimisé pour les systèmes de production à haut débit et est disponible sous licence Apache 2.0.

Contexte Technique

Mellum2 est entraîné à partir de zéro sur des données de langage naturel et de code, avec une architecture qui active uniquement 2,5 milliards de paramètres par jeton, ce qui le rend efficace pour les inférences à haut débit et faible latence. Le modèle est conçu pour être utilisé dans diverses applications, notamment le routage, la génération de code, la résumé, les sous-agents et les déploiements privés.

La spécialisation de Mellum2 dans le traitement de texte et de code, plutôt que les tâches multimodales, permet de maintenir le modèle compact et efficace pour les charges de travail d'ingénierie logicielle. L'architecture Mixture-of-Experts permet de conserver une capacité de modèle élevée tout en activant uniquement un sous-ensemble de paramètres pour chaque jeton, ce qui rend l'inférence plus efficace et réduit les coûts de service pour les charges de travail en temps réel.

Analyse et Implications

Mellum2 offre des performances concurrentielles avec les modèles de taille similaire, tout en atteignant une inférence plus de 2 fois plus rapide. Cela en fait un choix approprié pour les charges de travail de production à haut débit. Le modèle peut être utilisé comme modèle léger de routage et d'orchestration dans les systèmes multi-modèles, ainsi que pour les pipelines de récupération à faible latence, y compris la compression de contexte, la résumé et le post-traitement de récupération.

De plus, Mellum2 peut être utilisé pour les tâches de sous-agents, telles que la planification, la validation, la transformation et la préparation de contexte, réduisant ainsi le besoin d'invocation de modèles plus grands pour les opérations intermédiaires. Puisque Mellum2 est ouvert et efficace à servir, il peut être déployé dans des environnements auto-hébergés impliquant du code propriétaire ou des données internes.

Perspective

À mesure que les systèmes d'IA mûrissent, les architectures les plus efficaces deviennent moins monolithiques. Un modèle frontalier unique peut être puissant, mais les systèmes de production ont souvent besoin de plusieurs composants spécialisés travaillant ensemble. Nous considérons Mellum2 comme un modèle « focal » : un modèle rapide et bien défini, optimisé pour les tâches à haute fréquence à l'intérieur des systèmes d'IA plus grands. L'objectif n'est pas de remplacer chaque modèle de la pile, mais de rendre la pile plus rapide, moins chère et plus facile à contrôler.

Si vous construisez des systèmes d'IA pour l'ingénierie logicielle – à l'intérieur d'un IDE, dans un pipeline RAG, en tant que partie d'un flux de travail d'agent ou sur une infrastructure privée – Mellum2 est prêt à être essayé. Le modèle est disponible sur Hugging Face, et les détails de l'architecture, la configuration d'entraînement, les benchmarks et la méthodologie d'évaluation peuvent être trouvés dans le rapport technique complet.