Introduction

Les datacenters fonctionnent actuellement à environ 30% à 40% de leur capacité effective, en raison de la surestimation des ressources nécessaires par les utilisateurs. Cela entraîne une perte importante de capacité de calcul, qui pourrait être utilisée par d'autres. Expanse est une solution conçue pour résoudre ce problème en prédiant les ressources nécessaires pour les travaux de calcul avant leur exécution.

Contexte Technique

Expanse s'intègre aux clusters HPC/GPU en utilisant des mécanismes tels que SLURM et Kubernetes. Il analyse les scripts de soumission de travaux, les codes sources et les données matérielles pour prédire les ressources nécessaires. Les modèles d'apprentissage automatique d'Expanse sont entraînés pour sur-estimer les ressources plutôt que de sous-estimer, en raison des conséquences asymétriques d'une panne de travail. Les utilisateurs reçoivent des recommandations de ressources, des prédictions de défaillances et des suggestions d'optimisation au moment de la soumission.

Expanse offre trois capacités principales : la prédiction des ressources au moment de la soumission, l'observabilité en temps réel et le diagnostic des défaillances. Les utilisateurs peuvent ainsi optimiser leurs travaux de calcul et réduire les pertes de capacité.

Analyse et Implications

Les tests d'Expanse ont montré une amélioration significative par rapport aux méthodes actuelles, avec une précision 8 fois supérieure aux modèles de langage les plus avancés. Cela représente un potentiel d'économie important pour les datacenters et les utilisateurs de clusters HPC/GPU. Les implications de cette technologie sont importantes, car elle peut aider à réduire les coûts et à améliorer l'efficacité des travaux de calcul.

Perspective

Expanse est actuellement en phase de déploiement chez les clients, avec une tarification déterminée par cluster. Les utilisateurs de clusters HPC/GPU peuvent bénéficier d'une évaluation gratuite pour mesurer les capacités récupérables. L'avenir d'Expanse est prometteur, car il peut aider à résoudre les problèmes de capacité de calcul et à améliorer l'efficacité des datacenters.