Introduction
Le Hub Hugging Face propose désormais les Storage Buckets, un système de stockage objet mutable inspiré de S3, conçu pour gérer les fichiers intermédiaires générés par les processus de machine learning en production. Ces fichiers, tels que les points de contrôle, les états d'optimiseur, les données traitées et les journaux, sont constamment mis à jour et nécessitent un système de stockage efficace.
Contexte Technique
Les Storage Buckets sont construits sur Xet, le backend de stockage basé sur des chunks de Hugging Face. Cette architecture permet de déduper les données entre les fichiers, réduisant ainsi la bande passante et les coûts de stockage. Les Buckets sont accessibles via le Hub, le CLI ou les API Python et JavaScript, offrant une grande flexibilité pour les utilisateurs.
Analyse et Implications
Les Storage Buckets répondent à un besoin crucial dans le domaine du machine learning, où les données sont constamment générées et mises à jour. La capacité de stocker et de gérer ces données de manière efficace est essentielle pour les entreprises qui cherchent à déployer des modèles de machine learning en production. Les Buckets offrent également des avantages en termes de coûts, car les données dédupliquées réduisent la quantité de stockage nécessaire.
Perspective
À l'avenir, les Storage Buckets devraient continuer à évoluer pour répondre aux besoins des utilisateurs. Les plans incluent la prise en charge de transferts directs entre les Buckets et les référentiels de modèles et de datasets, permettant ainsi une intégration plus fluide entre les différents composants du workflow de machine learning. Les utilisateurs pourront ainsi promouvoir des points de contrôle finals dans un référentiel de modèles ou commiter des données traitées dans un référentiel de datasets une fois que les pipelines sont terminés.