Introduction

Les modèles de génération d'images basés sur l'IA ont considérablement évolué ces dernières années. Le nouveau modèle ChatGPT Images 2.0 est capable de générer des images de haute qualité, notamment des textes et des éléments graphiques complexes.

Contexte Technique

Les anciens modèles de génération d'images, tels que les modèles de diffusion, avaient des difficultés à gérer les textes et les éléments graphiques en raison de leur fonctionnement basé sur la reconstruction d'images à partir de bruit. Les nouveaux modèles, comme les modèles autoregressifs, permettent de faire des prédictions sur l'apparence d'une image et fonctionnent de manière similaire aux modèles de langage.

Le modèle ChatGPT Images 2.0 dispose de « capacités de réflexion » qui lui permettent de rechercher sur le web, de créer plusieurs images à partir d'une seule invite et de vérifier ses créations. Cela lui permet de générer des actifs marketing dans différentes tailles, ainsi que des bandes dessinées multi-panneaux.

Analyse et Implications

Le modèle ChatGPT Images 2.0 a une compréhension plus forte de la représentation de texte non latin dans des langues telles que le japonais, le coréen, l'hindi et le bengali. Cependant, ses connaissances sont limitées à décembre 2025, ce qui pourrait avoir un impact sur la précision de la génération de certaines invites impliquant des actualités récentes.

Les capacités du modèle signifient que la génération d'images n'est pas aussi rapide que la saisie d'une question à ChatGPT, mais la génération de quelque chose de complexe comme une bande dessinée multi-panneaux prend encore quelques minutes.

Perspective

Tous les utilisateurs de ChatGPT et de Codex pourront accéder à Images 2.0 à partir de mardi ; les utilisateurs payants pourront générer des sorties plus avancées. La société rendra également disponible l'API gpt-image-2, avec des tarifs dépendant de la qualité et de la résolution des sorties.

Il est important de surveiller les limites et les prochaines étapes de ce modèle, notamment en termes de gestion des données et de la confidentialité, ainsi que de son impact potentiel sur les marchés de la création et de la communication.