Introduction

Microsoft a annoncé l'ouverture du code de son modèle de raisonnement multimodal, Phi-4-reasoning-vision-15B, qui peut traiter des fichiers multimédias tels que des graphiques scientifiques. Ce modèle est basé sur deux algorithmes existants, SigLIP-2 et Phi-4 Reasoning, qui ont été combinés à l'aide d'une approche appelée mid-fusion.

Contexte Technique

Le modèle Phi-4-reasoning-vision-15B est composé de 15 milliards de paramètres et peut être utilisé pour analyser des images et des textes. Il a été entraîné sur des données ouvertes et a été optimisé pour réduire l'utilisation du matériel. Les chercheurs de Microsoft ont utilisé une approche de mid-fusion pour combiner les deux algorithmes, ce qui permet de traiter des données multimédias de manière efficace.

Le modèle a été entraîné sur des données ouvertes, y compris des images et des descriptions textuelles des objets représentés dans ces images. Les chercheurs de Microsoft ont également ajouté des exemples de comportements que le modèle devrait éviter, ce qui aide à prévenir les sorties nuisibles.

Analyse et Implications

Le modèle Phi-4-reasoning-vision-15B a obtenu de meilleurs résultats que d'autres modèles de raisonnement similaires dans plusieurs évaluations ouvertes. Il a notamment obtenu un score 17% supérieur à celui de Google LLC's gemma-3-12b-it sur le benchmark MathVista_Mini.

Les développeurs peuvent utiliser ce modèle pour créer des agents IA qui interagissent avec des applications via leurs interfaces utilisateur. Le modèle est capable de déduire la fonction de différents éléments d'interface en fonction de captures d'écran.

Perspective

Le modèle Phi-4-reasoning-vision-15B est une option intéressante pour les développeurs qui souhaitent créer des agents IA capables de naviguer dans des interfaces utilisateur complexes. Il est également capable d'analyser des actifs visuels plus complexes tels que des graphiques scientifiques.

Microsoft a mis le code du modèle à disposition sur Hugging Face, GitHub et Azure, ce qui permet aux développeurs de l'utiliser et de le personnaliser pour leurs propres applications.