Introduction
Les réseaux de neurones de jeu comme AlphaZero atteignent des performances supérieures à celles des humains dans les jeux de plateau en augmentant la politique brute avec un harnais de recherche à l'exécution et en distillant la politique plus forte dans le réseau. Pourquoi de telles techniques ne sont-elles pas utilisées dans la modélisation du langage aujourd'hui ?
Contexte Technique
Les auteurs de DeepSeek-R1 mentionnent qu'ils ont trouvé un succès limité avec MCTS ; Finbarr Timbers a un excellent article sur les raisons pour lesquelles ils ont pu rencontrer ce problème, notamment leur choix de UCT au lieu de pUCT. L'objectif de cet article est d'explorer deux questions : est-il possible que la distillation de recherche améliore réellement la raisonnement du modèle de langage ? Et comment se compare-t-elle aux méthodes standard de RL pour les langues, comme GRPO ?
Pour explorer cela, j'ai appliqué MCTS sur les étapes de raisonnement à Qwen-2.5-1.5B-Instruct, pour rechercher des trajectoires plus fortes et les distiller dans le modèle via une boucle PPO en ligne. Sur la tâche de Countdown, un jeu arithmétique combinatoire, le modèle distillé (évalué sans harnais de recherche) atteint un score moyen@16 de 11,3 %, contre 8,4 % pour CISPO et 7,7 % pour best-of-N. Par rapport au modèle instruct initial (3,1 %), cela représente une amélioration de 8,2 points de pourcentage.
Analyse et Implications
Les scores absolus faibles reflètent le fait que ces expériences sont de petite échelle sur un modèle de 1,5 milliard. J'espère utiliser cet article comme le premier d'une série et voir ces scores augmenter dans les prochains articles du blog à mesure que j'utilise des modèles et des budgets de calcul plus importants.
La méthode MCTS a été couverte en profondeur par d'autres, je vais donc me concentrer sur la différence entre la MCTS classique et la méthode que j'ai essayée. En résumé, la MCTS construit itérativement un arbre de recherche pour explorer de manière intelligente l'espace d'action, guidé par une fonction de valeur.
Perspective
Les résultats montrent que la distillation de recherche peut améliorer la raisonnement du modèle de langage, mais il est important de noter que les expériences sont de petite échelle et que les scores absolus sont faibles. Il est nécessaire de poursuivre les recherches avec des modèles et des budgets de calcul plus importants pour confirmer ces résultats et explorer les limites de cette approche.
Il est également important de noter que la méthode MCTS peut être améliorée en utilisant des techniques de parallélisation et de distribution pour accélérer le processus de recherche. De plus, il est possible de combiner la MCTS avec d'autres méthodes de RL pour améliorer les performances du modèle de langage.