Introduction

L'intelligence artificielle générale (IAG) est souvent présentée comme étant à portée de main, avec des annonces de dirigeants d'entreprises comme OpenAI et Anthropic laissant penser que nous sommes sur le point de voir émerger des intelligences artificielles capables de rivaliser avec l'intelligence humaine. Cependant, une analyse plus approfondie des capacités actuelles des modèles de langage et de leur compréhension du monde suggère que nous sommes encore loin de cet objectif.

Contexte Technique

Les recherches en neurosciences évolutives ont identifié des primitives cognitives, telles que le sens des nombres, la permanence des objets, la causalité, la navigation spatiale et la capacité à distinguer les mouvements animés des mouvements inanimés, qui sont présentes chez les vertébrés. Ces capacités sont partagées par tous les vertébrés, de poissons aux primates, et sont considérées comme ayant évolué il y a des centaines de millions d'années. Le langage est apparu plus tard, comme un outil de communication qui repose sur ces primitives cognitives. Les modèles de langage actuels, tels que les transformateurs, tentent de reproduire ces primitives à partir du langage, ce qui s'avère être une tâche extrêmement difficile.

Analyse et Implications

L'analyse des limitations des modèles de langage actuels montre qu'ils ne peuvent pas reproduire de manière fiable des opérations arithmétiques multi-digits, car ils n'ont pas de sens des nombres, mais seulement des modèles statistiques sur les jetons de chiffres. De même, ils ne peuvent pas généraliser des relations logiques simples, car ils manquent de la machinerie symbolique et compositionnelle nécessaire. Même l'apprentissage basé sur des vidéos ne permet pas de reproduire les primitives cognitives, car il repose sur des modèles statistiques de prévision de vidéos et non sur une compréhension profonde du monde.

Perspective

Les recherches futures devraient se concentrer sur la création de scénarios d'apprentissage qui permettent aux agents de développer des primitives cognitives à travers l'expérience embodie, comme c'est le cas pour les humains. Cela nécessitera la création de environnements simulés où les agents peuvent interagir avec le monde de manière multisensorielle et développer des capacités cognitives plus robustes. Les défis pour collecter ou générer de tels données sont importants, mais cela pourrait être un pas vers la création d'intelligences artificielles plus générales et plus robustes.