Introduction
L'équipe EAGLE, en collaboration avec les équipes vLLM et TorchSpec, présente EAGLE 3.1, une nouvelle version de l'algorithme de décodage spéculatif qui améliore la robustesse, l'efficacité et la déployabilité. Cette version est le résultat d'une collaboration ouverte entre les équipes de recherche et de développement.
Contexte Technique
Le décodage spéculatif est une technique utilisée pour améliorer les performances des modèles de langage. Cependant, cette technique peut être fragile et sensible aux changements de contexte. L'équipe EAGLE a identifié le phénomène d'« attention drift » comme une cause majeure de cette fragilité. Pour résoudre ce problème, EAGLE 3.1 introduit deux améliorations architecturales clés : la normalisation FC après chaque état caché cible et avant la couche FC, et l'alimentation des états cachés post-normalisés dans l'étape de décodage suivante.
Analyse et Implications
Les résultats montrent que EAGLE 3.1 offre une meilleure robustesse et une meilleure efficacité que la version précédente, EAGLE 3. Les améliorations incluent une meilleure extrapolation entre l'entraînement et l'inférence, une robustesse plus forte pour les contextes longs, une résilience plus élevée aux variations de modèles de chat et de prompts de système, et une longueur d'acceptation plus stable dans divers environnements de service. En outre, EAGLE 3.1 peut être entraîné de manière efficace à l'aide de TorchSpec, ce qui accélère l'itération et l'exploration pour la recherche et le déploiement de décodage spéculatif.
Perspective
L'intégration d'EAGLE 3.1 dans vLLM offre une extension config-driven de l'implémentation existante d'EAGLE 3, tout en préservant la compatibilité ascendante avec les points de contrôle existants d'EAGLE 3. Cette collaboration ouverte entre les équipes de recherche et de développement est un exemple fort de la façon dont la communauté peut travailler ensemble pour améliorer les performances et la robustesse des modèles de langage. Les prochaines étapes incluent la poursuite de l'amélioration de la robustesse et de l'efficacité du décodage spéculatif, ainsi que l'exploration de nouvelles applications pour cette technologie.