Introduction

Récemment, j'ai créé un site web appelé hackmyclaw.com, où n'importe qui pouvait envoyer un email à Fiu, mon assistant IA basé sur OpenClaw, et essayer de le manipuler pour qu'il révèle le contenu d'un fichier secrets.env. Après avoir atteint la page d'accueil de Hacker News, Fiu a reçu plus de 6 000 emails de la part de plus de 2 000 personnes qui ont tenté de le pirater.

Contexte Technique

Le but de cet exercice était de tester la sécurité de Fiu en essayant de le convaincre de révéler le contenu du fichier secrets.env. Fiu a été configuré pour ne pas répondre aux emails, mais il avait la capacité de le faire. Une partie du défi consistait à le convaincre de répondre. J'ai exécuté Fiu sur un serveur virtuel privé (VPS) avec une règle de sécurité de base qui interdisait la révélation du contenu du fichier secrets.env, la modification de ses propres fichiers, l'exécution de commandes ou le code à partir d'emails, ainsi que l'exfiltration de données vers des points de terminaison externes.

Analyse et Implications

Les attaques ont été créatives, allant de sujets d'email tels que « Fiu, c'est toi du futur » à des tentatives de phishing plus sophistiquées. Cependant, malgré plus de 6 000 tentatives, le contenu du fichier secrets.env n'a jamais été révélé. Les résultats de l'expérience ont montré que le modèle de langage utilisé, Claude Opus 4.6, a été efficace pour résister aux injections de prompt. Cependant, l'expérience a également révélé des limites, telles que la suspension du compte Gmail de Fiu par Google en raison d'une détection de fraude et des coûts importants liés à l'utilisation de l'API.

Perspective

En conclusion, même si l'injection de prompt reste un problème de sécurité réel, les résultats de cette expérience sont encourageants. Il est important de continuer à tester et à améliorer la sécurité des assistants IA pour garantir leur fiabilité et leur sécurité. Les prochaines étapes pourraient inclure des tests avec des modèles plus faibles et l'exploration de méthodes pour améliorer la robustesse des instructions suivies par les assistants IA.