Introduction

Anthropic a présenté ses excuses pour avoir freiné discrètement son nouveau modèle d'IA, Claude Fable 5, avec des garde-fous invisibles qui portent atteinte aux chercheurs et aux concurrents qui l'utilisent pour développer des systèmes concurrents. L'entreprise a décidé de revenir sur sa position et de rendre les restrictions plus transparentes, même si cela signifie que Fable refusera plus de requêtes.

Contexte Technique

Claude Fable est le premier modèle largement disponible de la classe de systèmes d'IA Mythos d'Anthropic, un groupe que l'entreprise a passé des mois à avertir qu'il était trop dangereux pour une sortie publique. Anthropic a déclaré qu'il avait atténué certains de ces risques en lançant Fable avec des mesures de sécurité qui empêchent le modèle de répondre à certaines requêtes à « haut risque ». L'une des zones où Anthropic a déclaré qu'il restreindrait les réponses de Fable est la distillation, une technique pour former des modèles d'IA plus petits en utilisant les sorties de modèles plus grands.

Dans la fiche système de Fable, un document public que les développeurs d'IA publient pour expliquer le fonctionnement d'un système, Anthropic a déclaré qu'il gérerait les requêtes qu'il croyait être des tentatives de distillation en modifiant et en dégradant directement les réponses du modèle. Les utilisateurs ne seraient pas informés qu'ils avaient déclenché la mesure de sécurité ou que les réponses avaient été modifiées.

Analyse et Implications

Anthropic a décidé de changer son approche de la distillation : les requêtes seront maintenant redirigées vers Claude Opus 4.8, le modèle phare précédent d'Anthropic, a déclaré l'entreprise dans un post sur X. Anthropic informera également clairement les utilisateurs : « Vous verrez cela chaque fois que cela se produira ».

Ceci est similaire à la façon dont Fable gère les requêtes dans d'autres domaines à haut risque. Lorsque les fonctionnalités de sécurité sont déclenchées dans des domaines tels que la biologie, la chimie et la cybersécurité, les requêtes sont routées via Opus 4.8, à moins qu'elles ne soient bloquées purement et simplement en vertu des règles de sécurité plus larges de l'entreprise, telles que celles couvrant les drogues, les armes ou d'autres contenus interdits.

Perspective

Le changement fait suite à une vive réaction de la communauté de recherche en IA à la décision d'Anthropic de limiter discrètement les utilisateurs soupçonnés d'essayer de distiller Fable dans des modèles concurrents - une mesure de sécurité que les critiques ont averti pourrait également affecter les tiers qui essaient d'évaluer le modèle de pointe. Anthropic a déclaré que la visibilité des mesures de sécurité est essentielle et que l'entreprise est désolée de ne pas avoir trouvé le bon équilibre.