Introduction
Zymtrace, une startup spécialisée dans l'optimisation des infrastructures d'intelligence artificielle (IA), a annoncé avoir levé 12,2 millions de dollars pour développer sa plateforme et améliorer les performances des charges de travail IA sur les infrastructures basées sur les processeurs graphiques (GPU).
Contexte Technique
La plateforme de Zymtrace est conçue pour analyser et optimiser les performances des charges de travail IA en fonctionnement sur les infrastructures basées sur les GPU. L'approche de l'entreprise se concentre sur le profilage en continu des processeurs centraux et des processeurs graphiques à travers un cluster pour identifier les inefficacités dans la façon dont les charges de travail interagissent avec les ressources matérielles et les systèmes distribués.
La plateforme de Zymtrace fonctionne en collectant des données d'exécution de bas niveau à partir de systèmes de production en utilisant une architecture basée sur le filtre de paquets Berkeley étendu, ce qui permet l'instrumentation de l'activité du système sans nécessiter de modifications de code. Les données télémétriques sont utilisées pour cartographier la façon dont les charges de travail IA se déplacent entre les processeurs hôtes et les GPU attachés, en traçant l'activité jusqu'à des chemins de code spécifiques.
Analyse et Implications
Une fois que les données de profilage sont collectées, la plateforme analyse les modèles d'exécution et génère des recommandations pour améliorer les performances des charges de travail, telles que des ajustements de la taille des lots, des modèles de communication distribués et de l'exécution des noyaux ou de la planification des processeurs.
La plateforme intègre également les flux de travail des développeurs et les pipelines d'infrastructure, où des processus automatisés peuvent générer des demandes d'extraction qui mettent en œuvre directement les optimisations recommandées dans le code ou la configuration pertinent.
Perspective
Les entreprises investissent lourdement dans les infrastructures d'IA, mais opèrent souvent sans visibilité claire sur où les performances sont perdues. Zymtrace vise à fournir la couche de visibilité qui permet aux systèmes d'IA de fonctionner de manière prévisible, efficace et à grande échelle.
La technologie est destinée aux organisations qui exploitent des systèmes d'apprentissage automatique et d'inférence IA à grande échelle dans des environnements de production, où l'utilisation des GPU, la latence et le débit sont étroitement liés au coût de l'infrastructure.