Introduction

OpenAI a lancé GPT-5.4, un nouveau modèle de base présenté comme « notre modèle frontalier le plus capable et efficient pour le travail professionnel ». Outre la version standard, GPT-5.4 est également disponible en tant que modèle de raisonnement (GPT-5.4 Thinking) ou optimisé pour les hautes performances (GPT-5.4 Pro).

Contexte Technique

La version API du modèle sera disponible avec des fenêtres de contexte pouvant atteindre 1 million de jetons, la plus grande fenêtre de contexte disponible chez OpenAI. Le modèle présente également une efficacité améliorée des jetons, permettant de résoudre les mêmes problèmes avec significativement moins de jetons que son prédécesseur.

Les résultats des benchmarks du nouveau modèle sont nettement améliorés, avec des scores records dans les benchmarks informatiques OSWorld-Verified et WebArena Verified. Le modèle a également obtenu un score record de 83 % sur le test GDPval d'OpenAI pour les tâches de travail de connaissance.

Analyse et Implications

GPT-5.4 prend la tête du benchmark APEX-Agents de Mercor, conçu pour tester les compétences professionnelles en droit et en finance. Selon un communiqué du PDG de Mercor, Brendan Foody, « [GPT-5.4] excelle dans la création de livrables à long terme tels que les présentations, les modèles financiers et les analyses juridiques, offrant des performances de pointe tout en fonctionnant plus rapidement et à un coût inférieur aux modèles frontaliers concurrents ».

Le modèle continue les efforts de l'entreprise pour limiter les hallucinations et les erreurs factuelles. OpenAI a déclaré que le nouveau modèle était 33 % moins susceptible de commettre des erreurs dans les revendications individuelles par rapport à GPT 5.2, et que les réponses globales étaient 18 % moins susceptibles de contenir des erreurs.

Perspective

Avec le lancement de GPT-5.4, OpenAI a révisé la façon dont la version API du modèle gère l'appel d'outils, en introduisant un nouveau système appelé Tool Search. Ce système permet aux modèles de rechercher les définitions d'outils au besoin, ce qui entraîne des requêtes plus rapides et moins coûteuses dans les systèmes dotés de nombreux outils disponibles.

OpenAI a également inclus une nouvelle évaluation de sécurité pour tester la chaîne de pensée de ses modèles, le commentaire continu fourni par les modèles pour montrer le processus de pensée à travers les tâches mult étapes. Les chercheurs en sécurité de l'IA se sont longtemps inquiétés du fait que les modèles de raisonnement pourraient fausser leur chaîne de pensée, et les tests montrent que cela peut se produire dans certaines circonstances.