Introduction

Les modèles de monde prédisent la dynamique de l'environnement en fonction des observations et des actions actuelles, servant de mécanisme cognitif de base pour la raison et la planification. Dans ce travail, nous explorons comment la modélisation du monde basée sur les modèles de langage peut pousser les limites des agents généraux.

Contexte Technique

Les modèles de monde linguistique, tels que Qwen-AgentWorld, sont conçus pour simuler des environnements agissants en utilisant des capacités de raisonnement en chaîne de pensée. Nous présentons Qwen-AgentWorld-35B-A3B et Qwen-AgentWorld-397B-A17B, les premiers modèles de monde linguistique capables de simuler des environnements agissants dans 7 domaines. Ces modèles ont été développés à l'aide d'un pipeline de formation en trois étapes : CPT, SFT et RL.

Le modèle Qwen-AgentWorld a été entraîné sur plus de 10 millions de trajectoires d'interaction avec l'environnement dans 7 domaines du monde réel. Nous avons également présenté AgentWorldBench, un benchmark complet construit à partir d'interactions réelles de 5 modèles de pointe sur 9 benchmarks établis.

Analyse et Implications

Les résultats empiriques montrent que Qwen-AgentWorld surpasse considérablement les modèles de pointe existants. De plus, nous avons exploré deux paradigmes complémentaires pour améliorer les agents généraux : la simulation découplée de l'environnement et la formation de modèles de fond unifiés.

En tant que simulateur d'environnement découplé, Qwen-AgentWorld prend en charge la simulation évolutive et contrôlable de milliers d'environnements réels pour l'apprentissage automatique agissant, ce qui conduit à des gains qui dépassent la formation en environnement réel seule.

Perspective

Les résultats de cette étude ouvrent des perspectives pour l'amélioration des agents généraux en utilisant des modèles de monde linguistique. Cependant, il est important de noter que les limites de l'analyse incluent la nécessité de plus de données et de benchmarks pour évaluer les performances des modèles de monde linguistique.

À l'avenir, il faudra surveiller les progrès dans le développement de modèles de monde linguistique et leur application dans des domaines tels que l'apprentissage automatique agissant et la simulation d'environnements réels.