Introduction
Le modèle VibeThinker-3B, doté de 3 milliards de paramètres, a été développé pour explorer les limites de la raison vérifiable dans les petits modèles de langage. Ce modèle compact a été amélioré grâce à une méthode de formation optimisée qui inclut une formation supervisée basée sur un programme, un apprentissage par renforcement multi-domaines et une auto-distillation hors ligne.
Contexte Technique
Le VibeThinker-3B s'appuie sur le paradigme de post-formation Spectrum-to-Signal. Les évaluations expérimentales ont montré que ce modèle atteint des performances de pointe sur des tâches de raisonnement vérifiable exigeantes. Il obtient un score de 94,3 sur AIME26, qui peut être amélioré à 97,1 avec une mise à l'échelle du test au niveau de la revendication. De plus, il affiche une forte généralisation hors distribution avec un taux d'acceptation de 96,1% sur des concours LeetCode récents non vus.
Analyse et Implications
Ces résultats placent le VibeThinker-3B dans la même bande de performance que les systèmes de raisonnement de premier ordre, surpassant ou égalant des modèles phares beaucoup plus grands comme DeepSeek V3.2, GLM-5 et Gemini 3 Pro. Un score de 93,4 sur IFEval confirme que cette amélioration extrême de la raison ne compromet pas la contrôlabilité stricte des instructions. Ces découvertes motivent l'hypothèse de compression-couverture paramétrique, qui considère la raison vérifiable comme compressible dans des noyaux de raisonnement compacts.
Perspective
Ces résultats suggèrent que les modèles compacts ne sont pas seulement des substituts efficaces pour le déploiement, mais offrent également un chemin complémentaire vers des performances de pointe dans les régimes de capacité dense en paramètres. Il est important de surveiller les limites et les prochaines étapes de cette technologie, notamment en ce qui concerne les applications potentielles et les défis liés à la généralisation et à la sécurité.