Introduction

Un nouveau modèle d'IA, appelé Mr. Chatterbox, a été créé à partir de textes de l'ère victorienne. Ce modèle a été entraîné exclusivement sur des textes publiés entre 1837 et 1899, provenant de la bibliothèque britannique.

Contexte Technique

Mr. Chatterbox a été entraîné à partir d'un corpus de 28 035 livres, avec environ 2,93 milliards de jetons d'entrée après filtrage. Le modèle a environ 340 millions de paramètres, ce qui est similaire à la taille du modèle GPT-2-Medium. Cependant, contrairement à GPT-2, Mr. Chatterbox est entraîné exclusivement sur des données historiques.

Le modèle est relativement petit, avec une taille de 2,05 Go sur disque. Il est possible de l'exécuter localement en utilisant le framework LLM et de l'essayer en utilisant la démo Hugging Face Spaces.

Analyse et Implications

Malgré son intérêt, le modèle est considéré comme faible, car il est difficile de lui poser des questions et d'obtenir des réponses utiles. Cela est dû en partie au fait que le modèle nécessite plus de données d'entraînement pour être efficace. Selon le papier Chinchilla de 2022, un ratio de 20 fois le nombre de paramètres à des jetons d'entraînement est nécessaire, ce qui signifie que Mr. Chatterbox aurait besoin d'environ 7 milliards de jetons pour être plus performant.

Perspective

Le projet Mr. Chatterbox est un début prometteur pour la création de modèles d'IA éthiques entraînés sur des données publiques. Cependant, il est clair que plus de données d'entraînement sont nécessaires pour améliorer les performances du modèle. L'utilisation de frameworks tels que LLM et de démos comme Hugging Face Spaces facilite l'accès et l'essai de tels modèles, ce qui pourrait conduire à des avancées futures dans le domaine de l'IA.