Les LLM corrompent vos documents lors de la délégation

Introduction

Les Modèles de Langage à Grande Échelle (LLMs) sont sur le point de révolutionner le travail du savoir, avec l'émergence de la délégation de tâches comme un nouveau paradigme d'interaction. Cependant, la délégation nécessite la confiance - l'attente que le LLM exécutera fidèlement la tâche sans introduire d'erreurs dans les documents.

Contexte Technique

Pour étudier la préparation des systèmes d'IA pour les flux de travail délégués, nous avons introduit DELEGATE-52, un simulateur de flux de travail délégués à long terme qui nécessite une édition de documents approfondie dans 52 domaines professionnels, tels que la programmation, la cristallographie et la notation musicale. Notre expérience à grande échelle avec 19 LLMs révèle que les modèles actuels dégradent les documents lors de la délégation.

Analyse et Implications

Même les modèles de pointe (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompent en moyenne 25% du contenu du document à la fin des flux de travail à long terme, les autres modèles échouant plus gravement. Des expériences supplémentaires montrent que l'utilisation d'outils agents ne améliore pas les performances sur DELEGATE-52 et que la gravité de la dégradation est exacerbée par la taille du document, la longueur de l'interaction ou la présence de fichiers distracteurs.

Perspective

Nos résultats montrent que les LLM actuels sont des délégués peu fiables : ils introduisent des erreurs rares mais graves qui corrompent silencieusement les documents, s'accumulant sur de longues interactions. Il est essentiel de surveiller les limites et les prochaines étapes de la technologie LLM pour améliorer la fiabilité et la sécurité des flux de travail délégués.

Les LLM corrompent vos documents lors de la délégation

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Veeam : Un tournant majeur vers la confiance des données et de l'IA

DigiCert : confiance numérique et gouvernance de l'IA

La stagnation européenne est un fait

Les limites de Rust, au-delà des choix d'Amazon et Cloudflare

Les LLM corrompent vos documents lors de la délégation

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Veeam : Un tournant majeur vers la confiance des données et de l'IA

DigiCert : confiance numérique et gouvernance de l'IA

La stagnation européenne est un fait

Les limites de Rust, au-delà des choix d'Amazon et Cloudflare

Sauvegarder l'article