Introduction
Les modèles de langage (LLM) sont de plus en plus utilisés pour traiter des données sensibles, mais cela pose des problèmes de confidentialité. Pour résoudre ce problème, nous avons développé une couche de prévention des pertes de données (DLP) qui pseudonymise les données sensibles avant de les envoyer à un LLM.
Contexte Technique
Nous avons construit un système de triage d'incidents de sécurité sur le modèle Anthropic Claude, qui nécessite l'accès à des données sensibles telles que des adresses IP, des noms d'utilisateurs et des noms de domaine. Cependant, nous ne voulions pas envoyer ces données à un modèle cloud sans les protéger. Nous avons donc créé un proxy qui pseudonymise les données sensibles avant de les envoyer au LLM.
Le proxy utilise une combinaison de techniques de détection, notamment des expressions régulières et des modèles de reconnaissance d'entités nommées (NER), pour identifier les données sensibles. Il remplace ensuite ces données par des pseudonymes qui sont acceptés par le LLM.
Analyse et Implications
La pseudonymisation des données sensibles pose des défis, notamment la perte de contexte et la fragmentation des entités. Nous avons dû développer une approche contextuelle pour préserver les métadonnées nécessaires au LLM pour raisonner sur les incidents de sécurité.
Nous avons également rencontré des problèmes de faux positifs, où le proxy pseudonymisait des chaînes de caractères qui ressemblaient à des données sensibles mais ne l'étaient pas. Nous avons résolu ce problème en ajoutant des détecteurs de propriétés pointées et des listes de skip pour les noms de tables et de colonnes KQL.
Perspective
La pseudonymisation des données sensibles est un défi important pour les applications de LLM. Notre approche contextuelle et notre proxy de pseudonymisation peuvent aider à résoudre ce problème. Cependant, il est important de continuer à améliorer les techniques de détection et de pseudonymisation pour préserver la confidentialité et la sécurité des données.
Il est également important de surveiller les limites de la pseudonymisation et de développer de nouvelles approches pour résoudre les problèmes de contexte et de fragmentation. L'avenir de la pseudonymisation des données sensibles dépendra de la capacité à équilibrer la confidentialité et la sécurité avec les besoins des applications de LLM.