présentation

La demande pour l'inférence est en pleine croissance et dépasse l'offre. Les prix des GPU NVIDIA grimpent rapidement, rendant les tokens très coûteux. C'est dans ce contexte que AMD propose une alternative avec son MI355X, qui offre des spécifications matérielles comparables à celles des GPU NVIDIA, mais à un coût inférieur d'environ 2,75 fois.

fonctionnement

Pour atteindre les meilleures performances sur le MI355X, il est nécessaire de choisir une quantification et un framework appropriés. Dans ce cas, le modèle GLM-5.2 a été quantifié en MXFP4 à l'aide d'AMD Quark, ce qui a permis d'obtenir une perte nulle par rapport à la quantification FP8 officielle de z-ai. Le framework d'inférence choisi était sglang, qui a été sélectionné pour sa prise en charge native et sa capacité à tirer parti de la quantification MXFP4.

optimisation

Pour améliorer les performances, il a été nécessaire d'activer la décoding spéculative sur sglang. Cependant, l'image ROCm de sglang ne prend pas en charge cette fonctionnalité par défaut. Deux corrections ont été nécessaires pour que la décoding spéculative fonctionne correctement : la première consistait à ajouter les entrées de la couche 78 à la liste des poids non quantifiés, et la seconde à ajouter une garde ROCm pour le noyau de métadonnées multi-étapes. Avec ces corrections, il a été possible d'obtenir un gain de près de 3 fois dans le débit de décoding unique.

analyse

Les résultats obtenus montrent que le MI355X peut atteindre un débit de 2626 tokens par seconde et par nœud, avec un coût inférieur de plus de 2 fois par rapport aux GPU NVIDIA. Cela démontre que le MI355X peut offrir un excellent rapport performances/prix pour les applications d'inférence. Les optimisations réalisées pour atteindre ces performances ont consisté à activer la décoding spéculative, à configurer les paramètres de cache et à optimiser les noyaux de calcul.

GPQA-Diamond, tau2, GSM8K
ont été utilisés pour évaluer les performances du modèle.