Introduction
L'équipe de développement de Gemma 4 a travaillé sans relâche pour améliorer les capacités de son modèle. Après avoir introduit la prédiction multi-token (MTP) pour accélérer l'inférence, puis un modèle de 12 milliards de paramètres pour combler le fossé entre les modèles E4B et 26B MOE, l'équipe annonce aujourd'hui la sortie de nouveaux points de contrôle optimisés avec la formation avec prise en compte de la quantification (QAT) pour rendre Gemma 4 encore plus efficace.
Contexte Technique
La formation avec prise en compte de la quantification (QAT) simule la quantification pendant la formation, minimisant ainsi la perte de qualité lorsque le modèle est compressé. Cette sortie inclut des points de contrôle QAT pour le format de quantification Q4_0 populaire, ainsi qu’un format de quantification spécialisé pour les cas d’utilisation mobile. En utilisant ce format mobile, la taille de la mémoire de Gemma 4 E2B a été réduite à 1 Go. Ces avancées réduisent considérablement les exigences de mémoire tout en préservant les capacités et la qualité attendues de Gemma 4.
Analyse et Implications
La quantification est une technologie clé pour exécuter des modèles sur du matériel grand public en réduisant leur empreinte mémoire et en accélérant la vitesse de décodage. Cependant, la quantification après formation (PTQ) standard entraîne souvent une dégradation des performances. Au lieu de simplement quantifier le modèle après la formation, la QAT intègre le processus de quantification directement dans la formation. Les résultats de la QAT donnent des résultats de qualité globale encore plus élevés par rapport aux références PTQ standard.
Perspective
Pour commencer à utiliser ces modèles QAT, les développeurs peuvent télécharger les poids sur Hugging Face, explorer la documentation pour apprendre à déployer les points de contrôle QAT, essayer les modèles sur leur bureau ou les déployer sur des appareils en utilisant des interfaces utilisateur comme llama.cpp, Ollama et LM Studio. Les modèles peuvent également être exécutés directement sur le Web avec Transformers.js ou déployés sur des appareils à l’aide du runtime LiteRT-LM léger de Google.