Introduction

Les Transformers sont devenus la solution standard pour de nombreuses tâches d'IA, avec la formulation d'attention QKV (query, key et value) jouant un rôle central. Cependant, la contribution individuelle de ces trois projections et l'impact de l'omission de certaines d'entre elles restent mal compris.

Contexte Technique

Les chercheurs ont évalué systématiquement trois contraintes de partage de projections : a) Q-K=V (partage de clé-valeur), b) Q=K-V (partage de requête-clé) et c) Q=K=V (projection unique). Les deux dernières variantes produisent des cartes d'attention symétriques ; pour résoudre ce problème, ils ont également exploré l'attention asymétrique via des encodages de position 2D.

Analyse et Implications

Les résultats des expériences menées sur des tâches synthétiques, des tâches de vision (MNIST, CIFAR, TinyImageNet, anomalie) et des tâches de modélisation de langage (modèles de 300M et 1,2 milliard de paramètres sur 10 milliards de jetons) ont montré que les Transformers performaient au même niveau ou occasionnellement mieux que le Transformer QKV. En modélisation de langage, le partage de projection Q-K=V a atteint une réduction de 50 % de la mémoire cache KV avec seulement 3,1 % de dégradation de la perplexité.

Perspective

Les résultats de cette étude systématique caractérisent le partage de projection comme un exemple peu exploré de liaison de poids dans l'attention, avec des avantages directs et quantifiables en termes de mémoire d'inférence, particulièrement précieux pour le déploiement sur les appareils périphériques. Les chercheurs ont également montré que le partage de projection Q-K=V préserve la qualité car les clés et les valeurs peuvent occuper des espaces de représentation similaires et l'attention opère dans un régime de faible rang.