Introduction

Les modèles de langage (LLM) ne sont pas les « boîtes noires » que l'on nous a promises. Les progrès de l'interprétabilité mécanistique, qui consiste à analyser les mécanismes internes d'un réseau neuronal, ont permis de mieux comprendre leur fonctionnement. Le rapport d'Anthropic, « On the Biology of a Large Language Model », marque une étape importante dans ce domaine.

Contexte Technique

Pour comprendre ce qu'un LLM « pense », il faut utiliser des méthodes créatives, car les activations des neurones individuels ne suffisent pas. La technique de « circuit tracing » consiste à entraîner un second modèle pour identifier des concepts discrets, puis à surveiller leur interaction au cours d'un passage avant. Cette méthode permet de décomposer les activations du modèle de base en fonctionnalités éparses qui correspondent à des concepts de niveau élevé que les humains peuvent identifier.

Les modèles réels raisonnent en plusieurs étapes. Lorsque l'on utilise cette méthode, on peut observer les modèles engagés dans un raisonnement multi-étapes via des concepts intermédiaires. Le modèle « pense » même à des futurs candidats à la rime lors de la planification d'un poème.

Analyse et Implications

Cette méthode n'est pas unique aux LLM. Les systèmes basés sur MCTS, tels qu'AlphaZero, convergent également vers des concepts que les humains reconnaissent. Une meilleure compréhension du raisonnement implicite d'un modèle peut nous aider à concevoir de meilleurs algorithmes d'apprentissage. Par exemple, Claude 3.5 Haiku a appris un algorithme pour l'addition de petits entiers qui ne correspond pas à la mentalité mathématique humaine.

Le modèle a un « subconscient ». Lorsqu'on lui demande d'expliquer comment il a ajouté deux nombres, il narre une procédure humaine propre, qui n'est pas l'algorithme qu'il a réellement exécuté. C'est précisément ce qui nous permet de regarder à l'intérieur.

Perspective

L'interprétabilité mécanistique est un domaine de recherche fascinant et en développement rapide, avec des implications significatives pour l'identification des comportements erronés des modèles, la direction et même la conception de meilleurs algorithmes d'apprentissage. Les progrès dans ce domaine pourraient avoir des conséquences importantes pour l'amélioration de la sécurité et de la fiabilité des systèmes basés sur l'IA.