Introduction
Les agents IA répètent actuellement la même tâche fastidieuse : recompiler un document à partir de zéro pour chaque lecture. Cela conduit à une duplication inutile des calculs, notamment pour la création d'un cache de clés-valeurs (KV). Une proposition simple consiste à calculer ce cache une seule fois et à le partager entre les agents.
Contexte Technique
Le préchargement est l'étape la plus gourmande en calcul pour les grands modèles. En effet, chaque agent doit reconstruire le cache KV pour chaque document, même si celui-ci est identique. Cela entraîne des coûts de calcul importants et inutiles. La proposition consiste à précalculer le cache KV par un éditeur et à le partager avec les autres agents, qui pourront ainsi sauter l'étape de préchargement.
Analyse et Implications
L'analyse montre que cette approche est efficace et ne coûte pas en termes de précision. En effet, le chargement d'un cache KV précalculé et la poursuite du traitement donnent les mêmes résultats que la reconstruction du cache à partir de zéro. Les économies de calcul sont importantes, allant de 9 à 50 fois moins cher que le préchargement, selon la taille du document. Cela signifie que le partage du cache KV peut être rentable même pour un seul usage.
Perspective
La mise en œuvre de cette approche nécessite de résoudre deux problèmes : la compression du cache KV pour réduire les coûts de stockage et de transmission, et la mise en place d'un système de paiement pour permettre aux éditeurs de facturer l'accès au cache KV. La création d'un réseau de distribution de contenu (CDN) pour les caches KV précalculés pourrait également être une étape clé pour mettre en œuvre cette approche.