L'agent visuel IA ouvert de Ai2 prend le contrôle des navigateurs web

Introduction

L'Institut Allen pour l'IA a lancé un nouvel agent IA visuel open-source capable de prendre le contrôle des navigateurs web et d'automatiser des tâches. Cet agent, appelé MolmoWeb, est basé sur la famille de modèles multimodaux Molmo 2 et est disponible en deux tailles : 4B et 8B paramètres.

Contexte Technique

MolmoWeb est conçu pour interpréter les instructions humaines et les pages web, en utilisant une série de captures d'écran pour observer la page web et interagir directement avec elle via l'interface. L'agent prend en charge la navigation vers des URL, le clic sur des coordonnées d'écran, la saisie de texte dans des champs, le défilement de pages, l'ouverture et le commutation de onglets de navigateur, ainsi que l'envoi d'un message de retour à l'utilisateur.

L'agent a été entraîné sans compresser un agent de vision propriétaire, mais en utilisant des données synthétiquement générées et des activités de navigation web réelles. Cela permet à MolmoWeb de fonctionner de manière plus proche de l'interaction humaine avec les interfaces web.

Analyse et Implications

MolmoWeb atteint des résultats de pointe parmi les agents web open-source, avec un score de 78,2% sur WebVoyager, 42,3% sur DeepShop et 49,5% sur TailBench. Il surpasse également les modèles leaders open-source tels que Fara-7B sur tous les benchmarks.

L'accès à des agents de navigateur IA open-source comme MolmoWeb aidera les chercheurs et les amateurs à développer leurs propres automatisations web. Les fournisseurs de modèles de langage à grande échelle fermés, tels que OpenAI et Perplexity AI, ont déjà commencé à explorer le marché avec des navigateurs web agents capables d'automatiser des tâches web.

Perspective

Il est important de surveiller les prochaines étapes dans le développement d'agents de navigateur IA open-source, car ils pourraient avoir un impact significatif sur la façon dont nous interagissons avec les interfaces web. Les limites de MolmoWeb, telles que sa taille de modèle et ses capacités, devraient également être examinées pour déterminer les domaines d'amélioration potentiels.

Enfin, l'utilisation de l'IA pour automatiser des tâches web soulève des questions de sécurité et de confidentialité, car les agents de navigateur IA pourraient potentiellement accéder à des informations sensibles. Il est essentiel de développer des lignes directrices et des réglementations pour garantir que ces technologies soient utilisées de manière responsable et sécurisée.

L'agent visuel IA ouvert de Ai2 prend le contrôle des navigateurs web

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Le langage de programmation Mojo sera bientôt open-source

Adrafinil : Gardez votre Mac éveillé pendant les tâches

Teenage Engineering met à jour son échantillonneur KO II

Les centres de données orbitaux d'Elon Musk : mythe ou réalité ?

L'agent visuel IA ouvert de Ai2 prend le contrôle des navigateurs web

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Le langage de programmation Mojo sera bientôt open-source

Adrafinil : Gardez votre Mac éveillé pendant les tâches

Teenage Engineering met à jour son échantillonneur KO II

Les centres de données orbitaux d'Elon Musk : mythe ou réalité ?

Sauvegarder l'article