Introduction
Les utilisateurs souhaitent exécuter les mêmes capacités d'utilisation d'ordinateur sur des environnements de bureau et mobiles, avec une intégration transparente avec différents cadres d'agents. Ils recherchent une flexibilité de déploiement, allant de l'inférence cloud à l'exécution entièrement locale sur les appareils des utilisateurs finaux.
Contexte Technique
Pour répondre à ces besoins, nous lançons la famille Holo3.1. Holo3.1 améliore la robustesse dans les trois dimensions qui comptent le plus en production : les environnements (web, bureau, mobile), les cadres d'agents et les cibles de déploiement. Pour la première fois, nous publions des points de contrôle quantifiés optimisés pour l'inférence locale, notamment FP8, Q4 GGUF et NVFP4.
Holo3.1 est une étape majeure vers notre vision d'agents d'utilisation d'ordinateur universels : des systèmes qui peuvent fonctionner sur différents environnements, s'intégrer dans n'importe quel ensemble d'agents et s'exécuter où que vive le flux de travail.
Analyse et Implications
Basé sur la famille Qwen, Holo3.1 a été conçu pour améliorer la robustesse dans les environnements où les agents d'utilisation d'ordinateur sont réellement déployés, tout en conservant les performances de pointe.
Les équipes ont observé à plusieurs reprises le même défi lors du passage de Holo3 de l'évaluation à la production : de fortes performances dans un paramètre ne se traduisent pas nécessairement par de meilleures performances dans un autre. Les appareils mobiles, les harnais d'agent alternatifs et les différents cadres d'exécution introduisent leurs propres sources de décalage de distribution.
Holo3.1 étend les capacités de Holo3 au-delà du contrôle du navigateur et du bureau, réalisant des gains importants sur les environnements mobiles. Sur AndroidWorld, notre modèle 35B-A3B améliore les performances de 67 % à 79,3 %, tandis que les variantes plus petites de 4B et 9B améliorent les performances de 58 % à 72 %.
Perspective
Pour mieux soutenir les équipes qui déployant Holo dans des ensembles d'agents tiers, Holo3.1 introduit une prise en charge native des protocoles d'appel de fonction en plus des sorties JSON structurées déjà disponibles dans Holo3.
À travers OSWorld et notre suite de référence interne couvrant les flux de travail de commerce électronique, de logiciels commerciaux et de collaboration, l'appel de fonction et l'exécution native réalisent désormais des performances quasi équivalentes. Holo3.1 offre également une amélioration de plus de 25 % par rapport à Holo3 lorsqu'il est évalué dans notre ensemble de produits Holotab.
Pour permettre encore plus l'inférence locale et sur appareil, nous publions également de nouvelles tailles de modèles, notamment de petits modèles (0,8B, 4B et 9B) pour un déploiement rentable et privé, en plus du plus grand modèle 35B-A3B pour des performances de pointe.