Introduction

Les modèles de langage basés sur les transformateurs, tels que GPT, sont devenus très puissants mais restent difficiles à comprendre en profondeur. L'étude de l'interprétabilité mécanistique (MI) vise à comprendre pourquoi ces modèles fonctionnent comme ils le font, en analysant leurs composants internes.

Contexte Technique

Les transformateurs utilisent une architecture spécifique qui inclut des blocs d'attention multi-tête, des réseaux de neurones à plusieurs couches (MLP) et des normalisations de couche. Le Framework analyse les blocs de transformateurs simplifiés qui n'ont que de l'attention multi-tête, sans MLP ni normalisation de couche. Cela permet de se concentrer sur les mécanismes clés de ces modèles.

Le flux résiduel est un espace vectoriel à haute dimension qui sert de mémoire partagée entre les différentes couches du modèle. Les composants du modèle, comme l'attention, effectuent des chargements et des stockages dans cet espace de manière séquentielle mais parallèle. Le modèle apprend à créer des sous-espaces dans cet espace vectoriel pour éviter que les composants ne détruisent les informations écrites par les composants précédents.

Analyse et Implications

L'analyse du flux résiduel et de l'attention nous permet de mieux comprendre comment les transformateurs traitent l'information. L'attention calcule la première partie de l'adresse token:sous-espace pour accéder aux emplacements de mémoire pertinents. Cette adresse est « souple » car elle spécifie une distribution de probabilité sur les emplacements source à charger.

Les implications de cette compréhension sont importantes pour l'alignement des modèles d'IA avec les valeurs humaines. En comprenant mieux comment les modèles fonctionnent, nous pouvons les rendre plus sûrs et plus fiables, et éviter les comportements dangereux ou subversifs.

Perspective

Les prochaines étapes dans l'étude des circuits de transformateurs incluent l'exploration de nouvelles méthodes pour analyser et interpréter les modèles d'IA. Cela pourrait inclure l'utilisation de techniques d'apprentissage automatique pour identifier les sous-espaces importants dans le flux résiduel, ou le développement de nouvelles architectures qui intègrent les principes de l'interprétabilité mécanistique.

Enfin, il est essentiel de poursuivre la recherche dans ce domaine pour garantir que les modèles d'IA soient alignés avec les valeurs humaines et ne présentent pas de risques pour la société. La compréhension approfondie des circuits de transformateurs est un pas crucial vers cet objectif.