Introduction

Un expert en sécurité a créé une application vulnérable et a dépensé 1 500 $ pour voir si les modèles de langage (LLM) pouvaient la pirater. L'objectif était de déterminer si les LLM pouvaient reproduire une classe commune d'exploits trouvés dans de nombreuses applications.

Contexte Technique

L'application a été créée avec React Native et une API en Python, utilisant Firebase comme couche de données. Le but était de trouver un drapeau dans les critiques privées des utilisateurs. Les LLM ont été alimentés avec une description du défi et un fichier ZIP contenant l'APK et les informations de configuration de l'application.

Analyse et Implications

Les résultats montrent que certains LLM, tels que GPT 5.5 et Kimi K2.6, ont pu pirater l'application en exploitant les vulnérabilités de Firebase. Cependant, d'autres LLM, tels que Deepseek V4 Pro et Claude Sonnet 4.6, n'ont pas pu réussir le défi en raison de limitations dans leur approche ou de refus de sécurité. Les résultats soulignent l'importance de la sécurité et de la protection des données dans les applications, ainsi que les limites des LLM dans la détection et l'exploitation des vulnérabilités.

Perspective

Les résultats de cette expérience montrent que les LLM peuvent être utilisés pour tester la sécurité des applications, mais qu'ils ne sont pas encore capables de remplacer les experts en sécurité humains. Il est important de continuer à développer et à améliorer les LLM pour les rendre plus efficaces dans la détection et l'exploitation des vulnérabilités. De plus, les développeurs d'applications doivent prendre des mesures pour protéger les données des utilisateurs et prévenir les attaques de piratage.