Introduction

Anthropic a récemment lancé son modèle Fable, une version publique et limitée de son puissant modèle de sécurité Mythos. Cependant, les chercheurs en sécurité et les professionnels du domaine ont exprimé leur mécontentement en ligne en raison des restrictions imposées par le modèle.

Contexte Technique

Les restrictions, appelées « guardrails », ont été mises en place pour limiter les risques que Fable puisse être utilisé pour développer des logiciels malveillants ou compromettre des logiciels. Les restrictions sur la biologie proviennent d’une préoccupation similaire concernant le développement d’armes biologiques. Lorsqu’un prompt déclenche les guardrails, Fable pause la conversation et indique que ses « mesures de sécurité ont signalé ce message pour des sujets liés à la sécurité ou à la biologie ».

Les chercheurs ont souligné que les restrictions sont souvent trop larges et peuvent empêcher des tâches innocentes, comme la lecture d’un article de blog ou la révision de code. Le modèle Fable est programmé pour basculer vers Claude Opus 4.8 si les guardrails sont déclenchés.

Analyse et Implications

Les experts en sécurité estiment que les restrictions sont souvent basées sur des mots clés et peuvent être déclenchées par des requêtes sans rapport avec la sécurité. Cela peut limiter l’utilisation de Fable pour des tâches légitimes, comme la rédaction de code sécurisé. Les chercheurs ont également souligné que les restrictions peuvent être contournées par des utilisateurs malveillants.

Anthropic exige que les professionnels de la sécurité appliquent au programme de vérification de la sécurité pour avoir accès à des fonctionnalités plus avancées. OpenAI propose un programme similaire appelé Trusted Access for Cyber.

Perspective

Les chercheurs estiment que les restrictions imposées par Fable sont compréhensibles, mais qu’elles devraient évoluer avec le temps. Les entreprises de modèles de pointe, comme Anthropic, devraient collaborer avec les nouvelles générations de sociétés de sécurité pour améliorer les fonctionnalités de sécurité de leurs modèles. Les utilisateurs devraient être conscients des limites des modèles de sécurité et des risques potentiels liés à leur utilisation.