Introduction

Les tests de cybersécurité récents menés par l'AI Security Institute (AISI) au Royaume-Uni ont révélé que le modèle GPT-5.5 d'OpenAI est aussi performant que le Mythos Preview d'Anthropic en termes de cybersécurité.

Contexte Technique

Depuis 2023, l'AISI a évalué divers modèles d'IA de pointe à l'aide de 95 défis Capture the Flag conçus pour tester leurs capacités en matière de tâches de cybersécurité, telles que l'ingénierie inverse, l'exploitation Web et la cryptographie. Les résultats ont montré que GPT-5.5 a réussi en moyenne 71,4 % des tâches d'expert, légèrement supérieur au 68,6 % atteint par Mythos Preview.

Analyse et Implications

Les tests ont également montré que GPT-5.5 a réussi à résoudre un défi difficile impliquant la construction d'un désassembleur pour décoder un binaire Rust en 10 minutes et 22 secondes sans assistance humaine, à un coût de 1,73 $ en appels API. De plus, GPT-5.5 a égalé les progrès de Mythos Preview dans la simulation de l'extraction de données « The Last Ones » (TLO), avec 3 réussites sur 10 tentatives.

Perspective

Ces résultats suggèrent que GPT-5.5 et Mythos Preview ont des capacités similaires en matière de cybersécurité, malgré les affirmations d'Anthropic selon lesquelles son modèle présenterait une menace plus importante pour la cybersécurité. Cependant, il est important de noter que les deux modèles ont échoué à la simulation « Cooling Tower » de l'AISI, qui vise à perturber le logiciel de contrôle d'une centrale électrique.