Introduction
La Bibliothèque nationale de Norvège développe un grand modèle de langage (LLM) qui comprend la langue norvégienne et utilise 2 pétaoctets de stockage flash Huawei OceanStor Dorado dans son pipeline de données d'entraînement IA.
Contexte Technique
Le projet vise à créer un modèle de langage souverain pour la Norvège, car aucun fournisseur commercial de LLM n'a développé de modèle pour la langue norvégienne. La bibliothèque a été chargée par le ministère de la Culture de construire ce modèle en raison de sa grande collection numérique de livres, de journaux et de pages Web norvégiens.
La bibliothèque a accumulé 20 pétaoctets de données uniques stockées sous forme de 3 copies, 2 types de supports et 1 copie hors site, soit 60 pétaoctets au total. Le processus de numérisation a généré beaucoup de métadonnées et d'API pour l'accès en ligne.
Analyse et Implications
Le goulet d'étranglement du projet n'est pas le calcul, mais la qualité des données, le nettoyage et le débit du pipeline. Le pipeline comporte des étapes de ingestion de données, de nettoyage, de déduplication, de normalisation de format, de validation et de préparation.
Les données sont ensuite envoyées au supercalculateur national norvégien, le système Sigma2 Olivia, pour les entraînements réels. Le système Olivia utilise un stockage Cray ClusterStor E1000 de 5,3 pétaoctets.
Perspective
Le projet soulève des questions sur la gouvernance et l'accès à un modèle de langage souverain. La bibliothèque doit également trouver un moyen de faire fonctionner trois systèmes - l'archive de préservation, l'environnement IA sur site et le supercalculateur national - de manière fluide.
Les leçons tirées de ce projet sont que tout pays développant un modèle de langage souverain devrait consulter les experts norvégiens et se familiariser avec les défis impliqués. Le stockage Huawei joue un rôle important dans le marché européen, et les pays non anglophones devraient prendre en compte les défis de la construction d'un modèle de langage qui reflète leur langue, leur culture et leur histoire.