Introduction

Les modèles de langage à grande échelle utilisés dans l'inférence IA rencontrent des problèmes de mémoire due à la capacité limitée des unités de traitement graphique (GPU). Lightbits Labs Ltd. a annoncé une nouvelle architecture visant à résoudre ce problème en combinant une mémoire non volatile à haute performance avec une infrastructure d'inférence gérée et un logiciel pour améliorer l'efficacité de l'inférence.

Contexte Technique

La nouvelle architecture combine le stockage non volatile à haute performance de ScaleFlux Inc., l'infrastructure d'inférence gérée de FarmGPU Inc. et le logiciel LightInferra de Lightbits Labs. Cette approche vise à réduire les temps d'arrêt des GPU en réutilisant les données du cache clé-valeur générées pendant l'inférence, plutôt que de les recomputer à chaque fois. Les tests ont montré une augmentation de jusqu'à trois fois du nombre de requêtes d'inférence sur les mêmes GPU, avec une réduction de 65% des coûts d'énergie et d'infrastructure.

Analyse et Implications

Le problème de la mémoire est dû à la taille croissante du cache clé-valeur, qui stocke les vecteurs d'attention intermédiaires générés pendant l'inférence. La nouvelle architecture de Lightbits Labs vise à améliorer l'efficacité de l'inférence en gérant le mouvement des données à travers les couches de mémoire, en prépositionnant les données nécessaires à proximité du processeur. Cela permet de réduire les temps d'arrêt des GPU et d'augmenter le débit sans ajouter de matériel.

Perspective

La nouvelle architecture est actuellement en phase de conception et de test avec des partenaires, dont des fournisseurs de services cloud et de néo-cloud. La mise en production est prévue pour juillet. Cette innovation a le potentiel de réduire les coûts et d'améliorer l'efficacité de l'inférence IA, ce qui pourrait avoir un impact significatif sur le marché de l'IA et du cloud.