Introduction
L'utilisation de plusieurs cartes graphiques pour améliorer les performances de traitement de l'IA est de plus en plus répandue. Dans cet article, nous allons explorer comment configurer un système avec une RTX 5080 et une RTX 3090 pour atteindre des performances de 80 tok/s sur le modèle Qwen 3.6 27B Q8.
Contexte Technique
Pour atteindre ces performances, il est nécessaire d'avoir un système capable de gérer plusieurs cartes graphiques. La carte mère Asus Prime X570-Pro a été choisie pour sa capacité à gérer deux cartes graphiques en parallèle. La RTX 5080 a été connectée à la carte mère via un riser PCIe 4 de haute qualité.
La configuration du BIOS a été plus complexe que prévu. Il a fallu désactiver le mode CSM (Compatibility Support Module) et activer les paramètres suivants : Above 4G Decoding, ReSize BAR Support et PCIEX16_1 Link Mode et PCIEX16_2 Link Mode en mode Gen 4.
Analyse et Implications
La configuration des pilotes NVIDIA a également été cruciale. Les paramètres de build utilisés pour supporter les deux cartes graphiques sont les suivants : CMAKE_CUDA_ARCHITECTURES="86;120", qui permet de prendre en charge les architectures Ampere et Blackwell.
Les options de démarrage de llama-server ont également été configurées pour optimiser les performances. Les options utilisées sont les suivantes : -m ./models/Huihui-Qwen3.6-27B-abliterated-ggml-model-Q8_0.gguf -c 229376 -np 1 -fa on -ngl 99 -ub 512 -t 6 --no-mmap --temp 0.7 --top-p 0.8 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 -ctk q8_0 -ctv q8_0 --kv-unified --chat-template-kwargs {"preserve_thinking": true} --spec-type ngram-mod,draft-mtp --spec-draft-n-max 3 -sm tensor -ts 2,3 --port 8001 --host 0.0.0.0.
Perspective
Les résultats obtenus sont très prometteurs, avec des performances de 80 tok/s sur le modèle Qwen 3.6 27B Q8. Cela montre que l'utilisation de plusieurs cartes graphiques peut améliorer significativement les performances de traitement de l'IA. Cependant, il est important de noter que la configuration de ce système a nécessité une grande attention aux détails et une bonne compréhension des paramètres de configuration.