CODA : Réécrire les blocs de Transformer en programmes GEMM-Épilogue

Introduction

Les systèmes d'entraînement de Transformers sont basés sur l'algèbre linéaire dense, mais une fraction non négligeable du temps total est passé sur les opérateurs à proximité de la mémoire. La normalisation, les activations, les mises à jour résiduelles, les réductions et les calculs connexes déplacent régulièrement de grands tenseurs intermédiaires à travers la mémoire globale tout en effectuant peu d'arithmétique, ce qui rend le déplacement de données un goulet d'étranglement de plus en plus important dans les piles d'entraînement autrement très optimisées.

Contexte Technique

Les opérateurs de Transformer exposés comme des noyaux de framework distincts peuvent être reparamétrés algébriquement pour s'exécuter pendant qu'une tuile de sortie GEMM reste sur le processeur, avant d'être écrite en mémoire. Cela conduit à l'introduction de CODA, une abstraction de noyau GPU qui exprime ces calculs comme des programmes GEMM-épilogue. CODA se base sur l'observation que de nombreux opérateurs de Transformer peuvent être réécrits pour s'exécuter de manière efficace en utilisant des primitives épilogues composable pour le scaling, les réductions, les transformations par paires et l'accumulation.

Analyse et Implications

Les noyaux CODA, qu'ils soient écrits par des humains ou générés par des modèles de langage, offrent de hautes performances sur des charges de travail représentatives de Transformers. Cela suggère que la programmation GEMM-épilogue offre un chemin pratique pour combiner la productivité au niveau du framework avec l'efficacité au niveau du matériel. Les implications de cette approche incluent la réduction du temps d'entraînement et l'amélioration de l'efficacité énergétique, ce qui est crucial pour les applications de l'IA à grande échelle.

Perspective

Il est important de surveiller les limites et les prochaines étapes de la technologie CODA, notamment en termes d'applicabilité à d'autres architectures de réseaux de neurones et d'intégration avec d'autres frameworks de deep learning. De plus, l'exploration de nouvelles primitives épilogues et leur impact sur les performances des noyaux CODA constitue une direction de recherche prometteuse. À mesure que les systèmes d'entraînement de Transformers continuent d'évoluer, des avancées comme CODA joueront un rôle clé dans la poursuite de l'optimisation des performances et de la réduction de la consommation d'énergie.

CODA : Réécrire les blocs de Transformer en programmes GEMM-Épilogue

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Les listes noires d'emails jetables

QuadRF détecte drones et voit WiFi à travers les murs

NASA attend beaucoup des stations spatiales privées

UE demande à Meta de désactiver auto-play et scroll infini

CODA : Réécrire les blocs de Transformer en programmes GEMM-Épilogue

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Les listes noires d'emails jetables

QuadRF détecte drones et voit WiFi à travers les murs

NASA attend beaucoup des stations spatiales privées

UE demande à Meta de désactiver auto-play et scroll infini

Sauvegarder l'article