Introduction

Modal propose une nouvelle solution pour l'inference optimisée avec Modal Auto Endpoints. Cette solution permet aux équipes de gérer leur propre inference sans compromettre la performance ou la vitesse de développement.

Contexte Technique

Les fournisseurs de modèles propriétaires peuvent dégrader silencieusement les modèles ou retirer l'accès. Pour vraiment posséder son inference, il faut comprendre et optimiser le code qui exécute l'inference. Les fournisseurs de services d'inference gérés facilitent l'accès à une API, mais la pile de service est une boîte noire.

Modal Auto Endpoints offre une solution différente en fournissant un service de production prêt, compatible avec l'API OpenAI, et géré par une application Modal que l'utilisateur peut voir et contrôler. Les trois principales différences de cette approche sont : le code n'est pas caché, les métriques ne sont pas cachées et il n'y a pas de bouton « parler aux ventes ».

Analyse et Implications

Modal Auto Endpoints permet aux utilisateurs de déployer des modèles ouverts de pointe avec une commande CLI ou des clickops, sans passer par un appel de vente. La plateforme d'infrastructure IA de Modal permet de fournir tout cela en s'appuyant sur une fondation solide. Les utilisateurs peuvent payer pour ce qu'ils utilisent, à mesure qu'ils l'utilisent, et mettre à l'échelle pour répondre à la demande avec le système d'autoscaling haute performance et le runtime de conteneur personnalisé.

Les serveurs Modal pour un routage à latence ultra-basse ont été ajoutés pour prendre en charge les demandes d'inference à latence faible. Les serveurs Modal conservent la mise à l'échelle élastique et la capacité de calcul approfondie des fonctions Web Modal, mais suppriment la mise en file d'attente et sont régionalisés par défaut.

Perspective

Modal Auto Endpoints offre la meilleure des deux mondes : la performance, sans effort. Pour chaque modèle pris en charge, une configuration de déploiement de démarrage est fournie, éclairée par l'expérience de l'équipe avec les produits IA les plus exigeants au monde. Les utilisateurs n'ont pas besoin de spécifier les types de GPU ou de manipuler les indicateurs de moteur jusqu'à ce qu'ils soient prêts, en faisant des optimisations personnalisées pour leur charge de travail.

Les résultats de benchmarking sont exposés à l'utilisateur lors de la configuration de l'endpoint. Une fois l'endpoint déployé, il peut être testé avec un clic, examiner les compromis entre latence et débit, et voir comment le service d'autoscaling et multi-réplica se comporte sous charge.