Introduction

Nous sommes ravis de présenter Holotron-12B, un modèle multimodal d'utilisation d'ordinateurs développé par H Company. Ce modèle a été entraîné à partir du modèle NVIDIA Nemotron-Nano-2 VL et est le résultat d'une collaboration étroite entre nos laboratoires de recherche pour créer un nouveau type de modèle optimisé pour la scalabilité et les performances en production.

Contexte Technique

La plupart des modèles multimodaux actuels sont optimisés pour la vision statique ou le suivi d'instructions. Cependant, Holotron-12B a pour objectif de servir de modèle de politique pour les agents d'utilisation d'ordinateurs qui doivent percevoir, décider et agir de manière efficace dans des environnements interactifs. Le modèle utilise une architecture hybride de modèle d'espace d'état (SSM) et de mécanisme d'attention, ce qui lui permet d'offrir une scalabilité supérieure pour les inférences à long contexte.

Contrairement aux modèles basés uniquement sur des transformateurs, cette conception est optimisée pour un service à haut débit. Les modèles d'espace d'état offrent une scalabilité supérieure pour les inférences à long contexte en évitant le coût de calcul quadratique associé au mécanisme d'attention complet, ce qui est particulièrement bénéfique pour les charges de travail agentyques impliquant plusieurs images et des historiques d'interaction longs.

Analyse et Implications

Lorsqu'il est évalué sur le benchmark WebVoyager, le modèle excelle en utilisant une charge de travail multimodale agentyque réelle avec un contexte long, plusieurs images haute résolution et une concurrence élevée de 100 travailleurs de benchmark. En utilisant une seule carte graphique H100 et le dernier vLLM avec les optimisations SSM (v0.14.1), Holotron-12B a atteint un débit plus de deux fois supérieur à celui de Holo2-8B.

Cela en fait un choix attractif pour les charges de travail limitées par le débit, telles que la génération de données, l'annotation et l'apprentissage par renforcement en ligne. Le modèle a également montré des améliorations significatives sur les benchmarks de localisation et de calage tels que OS-World-G, GroundUI et WebClick.

Perspective

Les résultats de Holotron-12B démontrent que le modèle NVIDIA Nemotron VL offre une base solide pour les agents multimodaux réels lorsqu'il est associé au bon ensemble de formation et d'infrastructure. Le modèle offre des performances d'agent solides, un débit d'inférence significativement amélioré et un chemin clair pour les améliorations futures, en particulier autour de la formation à haute résolution.

Nous nous attendons à voir ce que les autres construiront avec Holotron-12B. Le modèle et les points de contrôle sont désormais disponibles sur Hugging Face sous une licence de modèle ouvert NVIDIA. L'annonce récente de Nemotron 3 Omni ouvre la voie à de nouvelles avancées dans les capacités de raisonnement et la précision multimodale, poussant ainsi Holotron au-delà de la recherche et vers des applications commerciales.