Introduction
Anthropic a lancé Claude Sonnet 5, un modèle de langage à grande échelle qui surpasse son prédécesseur dans plusieurs domaines. Ce modèle sera la option par défaut dans les offres de consommation du service de chatbot Claude.
Contexte Technique
Anthropic a organisé ses modèles de langage commercialement disponibles en trois familles de produits : la série Haiku de niveau d'entrée, Sonnet et la gamme Opus de haute finition. Le modèle Sonnet 5 a été testé avec deux références appelées SWE-Bench Pro et Terminal-Bench 2.1, améliorant les scores de son prédécesseur de 5,1 % et 13,4 % respectivement.
Anthropic a également testé le modèle dans d'autres domaines, obtenant un score de 1 618 sur GDPval-AA v2, une référence qui inclut des tâches de travail de connaissance couvrant 44 professionnels. Le modèle Sonnet 4,5 avait obtenu 1 395 points.
Analyse et Implications
L'une des contributions à la qualité de sortie accrue de Sonnet 5 est qu'il est plus autonome. Selon Anthropic, les utilisateurs qui ont testé le modèle avant sa sortie ont rapporté qu'il vérifie parfois sa sortie sans instruction pour le faire. De plus, Sonnet 5 peut effectuer des tâches trop difficiles pour son prédécesseur.
Une autonomie accrue des modèles de langage peut créer des risques de cybersécurité dans certains cas. Selon Anthropic, Sonnet 5 est meilleur que Sonnet 4,6 pour repousser de tels risques, notamment en bloquant les requêtes malveillantes et les attaques d'injection de requêtes.
Perspective
Anthropic prévoit de rendre le modèle Sonnet 5 disponible dans les plans Max, Team et Enterprise, ainsi que pour les développeurs via son interface de programmation d'applications. Le modèle sera facturé 3 $ par million de jetons d'entrée et 15 $ par million de jetons de sortie à partir de septembre, légèrement plus cher que le modèle Terra de OpenAI.