Introduction

Falcon Perception est un modèle de perception visuelle basé sur un Transformer à 0,6 milliard de paramètres, conçu pour la mise en correspondance et la segmentation de vocabulaire ouvert à partir de prompts de langage naturel. Ce modèle traite les images et le texte dans une même séquence en utilisant un masque d'attention hybride et produit un nombre variable d'instances avec une interface de jetons structurée et des têtes de sortie légères.

Contexte Technique

Les systèmes de perception à vocabulaire ouvert sont souvent construits sous forme de pipelines modulaires, avec une colonne vertébrale de vision, une étape de fusion et des composants supplémentaires pour la mise en correspondance et le post-traitement. Cependant, cette approche peut être difficile à mettre à l'échelle et peut accumuler de la complexité. Falcon Perception se pose la question de savoir si un seul modèle de Transformer à fusion précoce peut gérer à la fois la perception et la modélisation du langage, en choisissant le bon modèle d'attention, l'interface de sortie et le signal d'entraînement.

Le modèle utilise une attention hybride pour traiter les images et le texte, avec des jetons d'image qui s'attendent bidirectionnellement à tous les autres jetons d'image, et des jetons de texte et de tâche qui s'attendent de manière causale à tout ce qui les précède. Cela permet au même modèle de se comporter comme un encodeur visuel bidirectionnel pour les jetons d'image, tout en soutenant la prédiction autoregressive sur les jetons de tâche.

Analyse et Implications

Falcon Perception atteint un score de 68,0 Macro-F1 sur le jeu de données SA-Co, ce qui est supérieur au score de 62,3 obtenu par le modèle SAM 3. Le modèle présente également un diagnostic de benchmark appelé PBench, qui évalue les performances en fonction des capacités (attributs, désambiguïsation guidée par OCR, contraintes spatiales, relations) et des scènes denses à long contexte encombrées.

Le modèle a également été entraîné à l'aide d'une méthode d'initiation par distillation de plusieurs enseignants, ce qui a permis d'obtenir une forte précision visuelle avant l'entraînement spécifique à la perception. Le jeu de données d'entraînement a été construit à l'aide d'un pipeline multétape, comprenant le regroupement hiérarchique d'images web par DINOv3, la génération de descriptions d'objets denses par VLM et la production de négatifs difficiles pour combattre l'hallucination.

Perspective

Falcon Perception ouvre des perspectives pour la perception visuelle à vocabulaire ouvert et la segmentation d'instances. Le modèle peut être amélioré en affinant le masque d'attention hybride, en explorant de nouvelles architectures de modèle et en augmentant la taille du jeu de données d'entraînement. De plus, le diagnostic de benchmark PBench peut être utilisé pour évaluer les performances de différents modèles et identifier les domaines à améliorer.