Introduction

Les modèles frontier sont observés de près, mais une couche plus intéressante se trouve peut-être devant eux. Les routeurs deviennent le plan de contrôle pour l'inférence IA, jouant un rôle crucial dans la décision de quand utiliser un modèle frontier et quand un modèle open-source ou local suffit.

Contexte Technique

Un routeur peut réduire les coûts en décidant quand une requête mérite un modèle frontier et quand un modèle plus simple est suffisant. Il peut également mettre en œuvre des politiques de sécurité en envoyant des domaines sensibles à des modèles plus stricts ou à des filtres plus forts. La coordination entre le cloud et l'edge est également possible, en gardant les intentions privées ou à faible latence locales tandis que les tâches plus difficiles sont escaladées vers le cloud.

Le routeur peut améliorer le modèle en le rendant capable de collaboration à l'intérieur de la couche de service, sans modifier les poids du modèle ou exiger que chaque application construise un graphique d'agent personnalisé. C'est ici que le concept de micro-agent intervient, permettant une collaboration bornée à l'intérieur de la couche de service.

Analyse et Implications

L'approche de vLLM Semantic Router diffère en ce qu'elle place l'abstraction dans la couche de service ouverte, permettant ainsi une collaboration qui ne vit pas uniquement dans un point de terminaison commercial ou un graphique d'agent spécifique à l'application. L'utilisateur appelle toujours un modèle, mais derrière cette identité de modèle stable, le routeur peut sélectionner une recette, distribuer les tâches à des travailleurs, collecter un quorum, vérifier les désaccords, synthétiser une réponse finale et retourner une réponse normale compatible OpenAI.

Les modèles de boucle, tels que Confidence, Ratings, ReMoM, Fusion et Workflows, offrent différentes approches pour gérer la collaboration entre les modèles, chacun avec ses propres avantages et utilisations spécifiques. Par exemple, Confidence utilise une boucle d'escalade séquentielle pour essayer un candidat moins coûteux en premier, mesurer la confiance et n'escalader que lorsque le score est trop bas.

Perspective

Il est important de surveiller les limites et les prochaines étapes de cette technologie, notamment en termes de sécurité, de confidentialité et de scalabilité. La collaboration entre les modèles peut améliorer considérablement les performances, mais elle nécessite également une gestion soigneuse des risques et des coûts. Les recettes automatiques, qui permettent de choisir la bonne boucle pour la requête en fonction de facteurs tels que la difficulté, le risque, la pression contractuelle, la latence et le coût, offrent une approche prometteuse pour gérer cette complexité.