Introduction

La startup Taalas a récemment présenté un circuit intégré (ASIC) capable d'exécuter le modèle de langage Llama 3.1 8B à une vitesse d'inférence de 17 000 jetons par seconde. Cela représente une avancée significative dans le domaine de l'intelligence artificielle (IA) et de l'apprentissage automatique. L'objectif de cet article est d'expliquer comment Taalas a réussi à « imprimer » un modèle de langage sur un circuit intégré.

Contexte Technique

Le circuit intégré de Taalas est un ASIC à fonction fixe, ce qui signifie qu'il est conçu pour exécuter un seul modèle et ne peut pas être réécrit. Le modèle Llama 3.1 8B est composé de 32 couches, chacune étant une grande matrice de poids. Sur un GPU classique, les poids de chaque couche sont stockés dans la mémoire VRAM et doivent être récupérés à chaque étape de calcul, ce qui induit une latence et consomme de l'énergie. Taalas a contourné ce problème en gravant les 32 couches du modèle Llama 3.1 8B directement sur le circuit intégré, utilisant des transistors physiques pour stocker les poids du modèle.

Analyse et Implications

L'approche de Taalas présente plusieurs avantages par rapport aux systèmes d'inférence basés sur les GPU. Premièrement, elle est 10 fois moins chère en termes de coûts de possession. Deuxièmement, elle consomme 10 fois moins d'électricité. Troisièmement, elle est 10 fois plus rapide que les systèmes d'inférence actuels. Cependant, il est important de noter que la fabrication d'un circuit intégré personnalisé pour chaque modèle peut être coûteuse. Taalas a résolu ce problème en conçevant un circuit intégré de base avec une grille générique de portes logiques et de transistors, ce qui permet de personnaliser les deux dernières couches pour mapper un modèle spécifique sur le circuit.

Perspective

Les implications de cette technologie sont considérables, notamment pour les applications qui nécessitent une grande vitesse d'inférence, telles que les assistants vocaux ou les systèmes de reconnaissance de texte. Cependant, il est important de surveiller les limites et les inconnues de cette technologie, telles que la complexité de la personnalisation des circuits intégrés et les coûts de fabrication. De plus, il faudra suivre les signaux de marché pour voir comment cette technologie sera adoptée et si elle sera en mesure de répondre aux besoins des utilisateurs.