Introduction

L'article présente les différences clés entre deux versions de l'algorithme DIFF, notamment DIFF V1 et DIFF V2, utilisés dans les modèles de langage. L'objectif est d'améliorer les performances et la stabilité des modèles de langage en introduisant des mécanismes d'attention différentiels.

Contexte Technique

DIFF V1 et DIFF V2 sont deux versions d'un algorithme d'attention différentiel utilisé dans les modèles de langage. La principale différence entre les deux versions réside dans la façon dont elles traitent les en-têtes d'attention et les projections de sortie. DIFF V2 introduit des en-têtes de requête supplémentaires par rapport à la version de base du transformateur, mais sans augmenter le nombre d'en-têtes de clé-valeur. Cela permet à DIFF V2 d'atteindre des vitesses de décodage similaires à celles du transformateur standard.

Analyse et Implications

L'analyse montre que DIFF V2 peut surmonter les limitations de l'attention Softmax et éliminer les « sinks d'attention ». Les expériences de pré-entraînement sur des modèles de langage à grande échelle montrent que DIFF V2 peut réduire la perte de modèle de langage et les pics de gradient pendant l'entraînement, en particulier avec des taux d'apprentissage élevés. Les résultats préliminaires suggèrent que DIFF V2 peut améliorer la stabilité et les performances des modèles de langage.

Perspective

Les prochaines étapes consisteront à explorer l'efficacité d'apprentissage de DIFF V2 dans les étapes moyennes et finales de l'entraînement, ainsi que ses performances sur les benchmarks de contexte long. Il sera également important d'examiner les implications théoriques de l'utilisation de l'attention différentielle dans les modèles de langage et de comprendre comment cela peut améliorer la stabilité et les performances des modèles.