Introduction
La migration de vLLM V0 à V1 a nécessité des corrections pour garantir l'exactitude des résultats. Les développeurs ont identifié et corrigé quatre problèmes clés : les logprobs de rollout traités, les paramètres d'exécution par défaut spécifiques à V1, le chemin de mise à jour des poids en vol et la tête de projection finale en fp32.
Contexte Technique
vLLM V1 est une réécriture substantielle du moteur V0. Les objectifs de migration étaient de vérifier que V1 renvoyait des logprobs de rollout sous la forme attendue par le formateur, de réexécuter la même charge de travail contre la référence V0 et d'évaluer les changements au niveau de l'objectif uniquement après avoir restauré la parité du backend.
Les premiers symptômes visibles sont apparus dans les métriques de formation, notamment clamp_log_ratio_new_old_indicator, kl_new_old, entropie et récompense. Ces métriques provenaient d'une formation GSPO, l'objectif utilisé pour cette expérience.
Analyse et Implications
L'analyse a révélé que les causes possibles des problèmes pouvaient être classées en trois catégories : mismatch sémantique, mismatch d'inférence et mismatch d'objectif. Les développeurs ont d'abord suspecté un problème d'objectif, mais la diagnose utile est venue du traitement des deux premières catégories comme des problèmes de comportement du backend.
Le premier problème était sémantique. vLLM V1 renvoyait des logprobs à partir des sorties brutes du modèle par défaut, avant le post-traitement des logits. Le formateur attendait des logprobs à partir de la distribution traitée utilisée par l'échantillonneur. Le réglage requis était logprobs-mode=processed_logprobs.
Perspective
Les résultats de cette analyse soulignent l'importance de la correction de l'exactitude avant les corrections en apprentissage par renforcement (RL). Les développeurs doivent surveiller les problèmes de comportement du backend, tels que les défauts de logprobs de rollout et les paramètres d'exécution par défaut, avant d'apporter des corrections au niveau de l'objectif.
Les prochaines étapes consisteront à surveiller les limites de la migration de vLLM V0 à V1, notamment les problèmes potentiels liés à la mise à jour des poids et à la gestion de la mémoire cache. Les développeurs devront également évaluer les implications de ces corrections sur les performances et la stabilité de l'algorithme.