Introduction

Le modèle de langage Steerling-8B, développé par Guide Labs, est présenté comme le premier modèle de langage interprétable, capable de tracer chaque token qu'il génère à son contexte d'entrée, à des concepts compréhensibles par l'homme et à ses données de formation. Ce modèle, entraîné sur 1,35 billion de tokens, atteint des performances comparables à celles de modèles entraînés sur 2 à 7 fois plus de données.

Contexte Technique

Steerling-8B repose sur un modèle de diffusion discret causal, qui permet de contrôler la génération de tokens sur plusieurs tokens plutôt que sur un seul token. Le choix clé de conception est la décomposition des embeddings du modèle en trois voies explicites : des concepts « connus » supervisés, des concepts « découverts » que le modèle apprend par lui-même, et un résiduel qui capture tout ce qui reste. Le modèle est ensuite contraint par des fonctions de perte d'entraînement qui assurent que le signal est acheminé via les concepts sans compromettre les performances.

Analyse et Implications

L'interprétabilité de Steerling-8B offre plusieurs capacités, notamment la possibilité de supprimer ou d'amplifier des concepts spécifiques au moment de l'inférence sans réentraîner le modèle, la traçabilité des données de formation pour chaque chunk généré, et l'alignement au moment de l'inférence via le contrôle des concepts. Cela remplace des milliers d'exemples de formation de sécurité par des interventions au niveau des concepts. Les tests ont montré que plus de 84% de la contribution au niveau des tokens provient du module de concepts, indiquant que le modèle utilise réellement les concepts pour faire ses prédictions.

Perspective

Les prochaines étapes consisteront à approfondir chacune de ces capacités, notamment le contrôle des concepts, la découverte de concepts, l'alignement sans fine-tuning, la mémorisation et l'évaluation des données de formation. Cela ouvrira de nouvelles possibilités pour améliorer la sécurité, la transparence et la compréhension des modèles de langage. Il sera intéressant de suivre les développements futurs de Steerling-8B et son impact potentiel sur le domaine de l'apprentissage automatique et de l'intelligence artificielle.