Introduction
Google DeepMind a présenté son dernier modèle IA, DiffusionGemma, qui offre une approche innovante de génération de texte en parallèle. Ce modèle, qui fait partie de la famille des modèles ouverts Gemma 4, est conçu pour être plus rapide et plus efficace que les modèles traditionnels.
Contexte Technique
La plupart des modèles IA sont conçus pour être autoregressifs, générant du texte de gauche à droite un jeton à la fois. DiffusionGemma, en revanche, utilise une approche similaire aux modèles de génération d'images, qui partent d'un bruit et le débruitent pour créer le contenu désiré. Ce modèle utilise un champ de jetons factices qui parcourt plusieurs fois le canevas pour générer des jetons probables et améliorer l'estimation des autres.
DiffusionGemma est un modèle Mixture of Experts (MoE) avec un total de 26 milliards de paramètres, mais seulement 3,8 milliards sont activés pendant l'inférence. Cela signifie qu'il devrait tenir dans l'allotement de 18 Go de RAM d'une carte graphique haut de gamme.
Analyse et Implications
Les tests ont montré que DiffusionGemma peut générer environ 700 jetons par seconde avec une carte graphique RTX 5090, et plus de 1 000 jetons par seconde avec un accélérateur AI Nvidia H100. Cela représente une augmentation de quatre fois par rapport aux modèles autoregressifs Gemma de taille similaire.
Cette approche de génération de texte déplace le goulet d'étranglement de la bande passante de la mémoire vers le calcul, générant jusqu'à 256 jetons en parallèle. Google affirme que cela offre un gain mesurable dans les tâches non linéaires comme l'édition en ligne, la séquençage moléculaire et la graphique mathématique.
Perspective
DiffusionGemma offre une nouvelle approche de génération de texte qui pourrait avoir des implications importantes pour les applications IA. Il sera intéressant de suivre les prochaines étapes de ce modèle et de voir comment il sera utilisé dans les différents domaines.