Introduction
Les Modèles de Langage à Grande Échelle (LLMs) sont sur le point de révolutionner le travail du savoir, avec l'émergence de la délégation de tâches comme un nouveau paradigme d'interaction. Cependant, la délégation nécessite la confiance - l'attente que le LLM exécutera fidèlement la tâche sans introduire d'erreurs dans les documents.
Contexte Technique
Pour étudier la préparation des systèmes d'IA pour les flux de travail délégués, nous avons introduit DELEGATE-52, un simulateur de flux de travail délégués à long terme qui nécessite une édition de documents approfondie dans 52 domaines professionnels, tels que la programmation, la cristallographie et la notation musicale. Notre expérience à grande échelle avec 19 LLMs révèle que les modèles actuels dégradent les documents lors de la délégation.
Analyse et Implications
Même les modèles de pointe (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompent en moyenne 25% du contenu du document à la fin des flux de travail à long terme, les autres modèles échouant plus gravement. Des expériences supplémentaires montrent que l'utilisation d'outils agents ne améliore pas les performances sur DELEGATE-52 et que la gravité de la dégradation est exacerbée par la taille du document, la longueur de l'interaction ou la présence de fichiers distracteurs.
Perspective
Nos résultats montrent que les LLM actuels sont des délégués peu fiables : ils introduisent des erreurs rares mais graves qui corrompent silencieusement les documents, s'accumulant sur de longues interactions. Il est essentiel de surveiller les limites et les prochaines étapes de la technologie LLM pour améliorer la fiabilité et la sécurité des flux de travail délégués.