Introduction

Le modèle FLUX-2, développé par Black Forest Labs, est une nouvelle série de modèles de génération d'images qui succède à la série FLUX-1. Ce modèle est entièrement nouveau, avec une architecture et un pré-entraînement réalisés à partir de zéro. Dans cet article, nous allons explorer les principaux changements introduits dans FLUX-2, ainsi que les différentes manières de réaliser une inférence avec ce modèle.

Contexte Technique

FLUX-2 utilise un seul encodeur de texte, appelé Mistral Small 3.1, ce qui simplifie le processus de calcul des plongements de prompt. Le modèle suit la même architecture générale que FLUX-1, avec des blocs de transformation de diffusion multimodale (MM-DiT) et des blocs DiT parallèles. Cependant, FLUX-2 introduit plusieurs changements clés, tels que le partage d'informations de temps et de guidage à travers tous les blocs de transformation, et l'utilisation de blocs de transformation parallèles sans paramètres de biais.

Analyse et Implications

L'utilisation de FLUX-2 nécessite une grande quantité de mémoire vidéo (VRAM), avec plus de 80 Go requis pour une inférence sans offloading. Cependant, il est possible de réaliser une inférence avec FLUX-2 en utilisant différentes méthodes, telles que l'offloading sur CPU, la quantification 4-bit ou l'utilisation de l'attention Flash 3. Ces méthodes permettent de réduire les exigences en termes de VRAM et de rendre le modèle plus accessible aux utilisateurs.

Perspective

FLUX-2 représente une nouvelle étape dans la génération d'images, avec des capacités améliorées et une flexibilité accrue. Cependant, il est important de noter que ce modèle nécessite une grande quantité de ressources et peut être difficile à utiliser pour les utilisateurs qui n'ont pas accès à des équipements de haute performance. Il sera intéressant de suivre les prochains développements et les améliorations apportées à FLUX-2, ainsi que les nouvelles applications et les cas d'utilisation qui pourraient émerger de ce modèle.