Introduction

DeepSeek, un développeur chinois d'intelligence artificielle, a annoncé aujourd'hui la sortie d'une nouvelle série de modèles de langage ouverts. La série V4 comprend deux modèles de langage : V4-Pro et V4-Flash, qui offrent une alternative plus légère en échange d'une qualité de sortie légèrement inférieure.

Contexte Technique

Les algorithmes V4 sont basés sur une architecture de mélange d'experts (MoE), qui signifie qu'ils comprennent plusieurs réseaux de neurones plutôt qu'un seul ensemble de neurones artificiels. V4-Pro dispose de 1,6 billion de paramètres et active un sous-ensemble de ses réseaux de neurones avec 49 milliards de paramètres lorsqu'il répond aux invites de l'utilisateur. V4-Flash, quant à lui, contient 284 milliards de paramètres et active 13 milliards à tout moment.

La série V4 présente également un nouveau mécanisme d'attention hybride, qui permet de réduire la taille du cache KV, ce qui diminue les exigences en matière de mémoire. En effet, le modèle utilise deux méthodes de compression différentes pour réduire la taille du cache KV, ce qui entraîne une utilisation de la mémoire 90 % inférieure à celle des modèles de langage de la génération précédente de DeepSeek.

Analyse et Implications

Les nouvelles fonctionnalités de la série V4 ont été ajoutées pour optimiser le flux de travail d'entraînement. Par exemple, la fonction mHC permet aux données de voyager directement entre les couches éloignées sans passer par les clusters de neurones intermédiaires, ce qui réduit les erreurs d'entraînement et améliore la qualité de sortie de l'IA. De plus, le module logiciel Muon est utilisé pour optimiser les couches cachées, ce qui accélère les exécutions d'entraînement et réduit les exigences en infrastructure.

Perspective

DeepSeek a évalué V4-Pro, le modèle de langage le plus capable de la série, à l'aide d'une vingtaine de références. Les résultats ont été comparés à ceux de plusieurs autres modèles de pointe, y compris Claude Opus 4.6. V4 a surpassé tous les modèles de langage concurrents dans trois des références et a réalisé de meilleures performances que certains des autres modèles de langage, mais pas tous. Les modèles V4-Pro et V4-Flash sont disponibles en préversion sur Hugging Face.