Introduction
L'apprentissage par renforcement agentic (RL) étend la formation des modèles de langage en optimisant non seulement une réponse à court terme, mais un processus décisionnel entier appris à travers une interaction directe avec un environnement pendant la formation. Cette approche est particulièrement importante pour les applications où les modèles doivent raisonner sur des informations incomplètes, interagir avec des services structurés et s'adapter à des intentions utilisateur en constante évolution.
Contexte Technique
Le RL agentic forme des politiques en collectant activement des données sur les politiques, en planifiant des actions, en invoquant des outils, en observant les résultats et en adaptant le comportement sur des trajectoires multi-étapes dans des environnements simulés ou réels. Cette interaction optimise l'attribution de crédit sur des décisions à long terme, où les choix intermédiaires influencent directement la réussite en aval. Le framework verl a été utilisé pour les expériences, avec des tâches comme gsm8k et Retool pour évaluer les performances du modèle GPT-OSS.
Analyse et Implications
L'analyse a révélé des problèmes sous-jacents dans la formation de GPT-OSS, notamment une divergence KL explosive et une entropie, ainsi que des récompenses non croissantes. Les expériences ont montré que le modèle Qwen-2.5-32B avait de meilleures récompenses que GPT-OSS 20B. La cause racine de ces problèmes a été identifiée comme étant liée à l'architecture MoE (Mixture of Experts) de GPT-OSS, qui peut entraîner des différences dans les routages d'experts entre les passes avant. La solution a consisté à substituer les anciennes log-probabilités par les nouvelles lors de la formation sur les politiques, garantissant ainsi un comportement strictement sur les politiques pendant la formation PPO.
Perspective
Les résultats de cette étude soulignent l'importance de comprendre les mécanismes sous-jacents des modèles de langage et de leurs interactions avec les environnements de formation. La résolution des problèmes de formation RL agentic pour GPT-OSS ouvre des perspectives pour des applications plus avancées, où les modèles doivent prendre des décisions dans des contextes complexes et dynamiques. Il est essentiel de surveiller les progrès dans ce domaine, en particulier les avancées dans la stabilisation de la formation MoE et l'amélioration de la généralisation des modèles sur des tâches variées.