Introduction

Les modèles de langage basés sur les Transformers, tels que Llama, ont connu une évolution significative ces dernières années. Initialement, leur architecture était relativement simple et épurée, mais aujourd'hui, ils sont devenus beaucoup plus complexes.

Contexte Technique

Les travaux sur les LLMs chez Meta ont débuté avec une approche simple et efficace, mais avec le temps, les modèles ont intégré de nouvelles variantes d'attention, telles que le regroupement de requêtes, la compression, la parcimonie, la linéarité et les fenêtres glissantes. L'ajout de routage sélectif et de mécanismes de mixture-of-Experts a encore accru la complexité de ces modèles.

Les encodeurs de vision et d'audio, qui étaient initialement ajoutés de manière externe, sont maintenant intégrés de manière plus profonde, et les modèles sont conçus pour fonctionner sur plusieurs GPU, ce qui introduit de nouvelles contraintes en termes de communications et de performances.

Analyse et Implications

Cette complexification des LLMs pose des défis en termes de performances et d'efficacité. Il est tentant de penser que les agents d'apprentissage automatique pourraient résoudre ces problèmes en générant des noyaux optimisés, mais cela nécessite une baseline solide et fiable pour garantir que les résultats sont corrects.

La leçon tirée des systèmes de recommandation est que la différence entre les performances optimales et les performances nécessaires devient de plus en plus petite. Il est donc essentiel de concevoir les modèles pour être composable et flexible dès le départ, plutôt que de compter sur l'optimisation et la génération de noyaux.

Perspective

Les développements futurs devraient se concentrer sur la conception de modèles composable et flexible, tels que FlexAttention, qui permettent d'explorer de nouvelles variantes d'attention sans impacter significativement les performances. Les travaux d'Andrej Karpathy sur les boucles de recherche auto-automatisées et les architectures composable sont également prometteurs pour l'avenir des LLMs.