Introduction

Anthropic a récemment publié son modèle Fable 5, un modèle de classe Mythos qui surpasse les capacités de ses prédécesseurs Opus. Cependant, cette publication est accompagnée de mesures de sécurité pour empêcher le modèle de répondre à des questions sur des sujets sensibles tels que la cybersécurité, la biologie et la chimie.

Contexte Technique

Le modèle Fable 5 est basé sur le même modèle sous-jacent que Mythos 5, mais avec des restrictions pour les utilisateurs non autorisés. Les requêtes sur des sujets sensibles sont redirigées vers le modèle Opus 4.8, et un avertissement est affiché à l'utilisateur. Anthropic a mis en place un système de classifyeurs pour détecter les sujets interdits et les tentatives de jailbreak.

Le modèle a été testé pendant plus de 1 000 heures avec un programme de chasse aux bugs, et les équipes externes n'ont pas pu trouver de jailbreak universel. Le modèle a également résisté aux tentatives de jailbreak automatisées de manière plus efficace que les modèles Opus précédents.

Analyse et Implications

Anthropic est particulièrement préoccupé par la capacité de Mythos 5 à effectuer des attaques de hacking « agentic », qui pourraient causer des dommages importants. Cependant, des tests récents menés par l'Institut de sécurité de l'IA du Royaume-Uni ont montré que les performances de Mythos Preview étaient similaires à celles d'OpenAI's GPT-5.5 sur une série de défis de type « Capture the Flag ».

Les mesures de sécurité mises en place par Anthropic pourraient être considérées comme « plus strictes que l'idéal », ce qui signifie que le système peut refuser des requêtes innocentes, mais cela est nécessaire pour éviter les situations où le modèle pourrait fournir une assistance à des acteurs malveillants.

Perspective

Il est important de surveiller les limites et les prochaines étapes de la technologie de l'IA, en particulier en ce qui concerne la sécurité et les risques potentiels. Les mesures de sécurité mises en place par Anthropic pour son modèle Fable 5 sont un pas dans la bonne direction, mais il est crucial de continuer à tester et à améliorer ces mesures pour garantir la sécurité et la responsabilité de l'utilisation de l'IA.