Introduction

Les gouvernements sont de plus en plus préoccupés par la propagation de la propagande par les modèles de langage à grande échelle (LLM). Pour lutter contre ce problème, l'Institut de la langue estonienne (ELI) a créé un nouveau benchmark appelé « Résistance à la propagande » pour évaluer la capacité des LLM à éviter de prendre position sur des sujets sensibles.

Contexte Technique

L'ELI a identifié 14 catégories de propagande dans lesquelles les opérations d'influence russes tentent d'influencer le débat public. Des questions ont été posées aux modèles dans trois langues : anglais, estonien et russe. Les réponses ont été évaluées par un modèle d'IA calibré pour correspondre aux experts de Propastop, une organisation de défense estonienne.

Analyse et Implications

Les résultats montrent que les modèles Claude d'Anthropic ont obtenu les meilleures performances sur ce benchmark, avec six des dix premières places. Le modèle Opus 4.7 a obtenu un score moyen de 94,9 sur 100 et a reçu une note « Exemplaire » pour 77 % des questions. Cela montre que les LLM peuvent être conçus pour résister à la propagande et fournir des réponses plus précises et plus neutres.

Perspective

Il est important de surveiller les progrès des LLM et leur capacité à résister à la propagande. Les résultats de ce benchmark pourraient aider à améliorer la conception des LLM et à les rendre plus robustes face aux tentatives de manipulation. Cependant, il est également important de noter que les LLM ne sont pas à l'abri de toutes les formes de propagande et que des recherches supplémentaires sont nécessaires pour améliorer leur capacité à détecter et à contrer les informations fausses.