Introduction

Les attaques d'injection de prompt représentent une menace critique pour les grands modèles de langage (LLM), permettant ainsi le détournement d'objectifs et la fuite de données. Les modèles de garde de prompt, bien que efficaces pour la défense, souffrent d'une surenchère - signalant à tort les entrées benignes comme malveillantes en raison du biais des mots déclencheurs.

Contexte Technique

Pour résoudre ce problème, nous introduisons NotInject, un jeu de données d'évaluation qui mesure systématiquement la surenchère à travers divers modèles de garde de prompt. NotInject contient 339 échantillons benignes enrichis de mots déclencheurs courants dans les attaques d'injection de prompt, permettant ainsi une évaluation fine. Nos résultats montrent que les modèles de pointe souffrent de problèmes de surenchère, avec une précision qui chute à des niveaux proches du hasard (60%).

Pour atténuer cela, nous proposons PIGuard, un nouveau modèle de garde de prompt qui intègre une nouvelle stratégie d'entraînement, Mitigating Over-defense for Free (MOF), qui réduit considérablement le biais sur les mots déclencheurs. PIGuard démontre des performances de pointe sur divers benchmarks, y compris NotInject, surpassant le meilleur modèle existant de 30,8%.

Analyse et Implications

PIGuard est un modèle léger conçu pour défendre contre les attaques d'injection de prompt. Il offre de solides performances à travers les métriques d'exactitude pour les entrées benignes, malveillantes et de surenchère, surpassant les modèles de garde existants tels que PromptGuard, ProtectAIv2 et LakeraAI. Malgré sa taille compacte, avec des paramètres de modèle de seulement 184 Mo, PIGuard atteint des performances compétitives comparables à celles des grands modèles de langage commerciaux avancés comme GPT-4.

Perspective

Il est essentiel de surveiller les limites et les prochaines étapes de PIGuard, notamment en termes d'amélioration de la précision et de la robustesse face à de nouvelles menaces. La disponibilité du code et des données de formation de PIGuard offre une opportunité pour la communauté de poursuivre la recherche et le développement dans ce domaine critique de la sécurité des LLM.