Introduction

Bugcrowd, une entreprise de cybersécurité basée sur le crowdsourcing, a lancé des environnements d'apprentissage par renforcement pour former des modèles d'IA sur des vulnérabilités de logiciels réelles. Cette offre permet aux laboratoires d'IA de former des modèles sur des environnements réels plutôt que sur des données de test synthétiques.

Contexte Technique

Les environnements d'apprentissage par renforcement nécessitent que les modèles d'IA puissent prendre des actions, observer les résultats et recevoir un signal de récompense. Bugcrowd propose des centaines de milliers d'environnements de formation, chacun construit à partir de logiciels open-source avec du code source réel et des résultats vérifiables. Les agents d'IA sont chargés de localiser les bogues, de les déclencher, d'évaluer leur exploitabilité et de produire des correctifs, avec une notation objective à chaque étape.

La plateforme est basée sur la technologie acquise par Bugcrowd lors de son acquisition de Mayhem Security en novembre. Elle est déjà utilisée par des fournisseurs de modèles de langage. Bugcrowd décrit cette offre comme un moyen de compresser ce qui serait normalement des années de travail d'ingénierie interne en quelques semaines.

Analyse et Implications

Le lancement de ces environnements d'apprentissage par renforcement étend la stratégie de Bugcrowd, qui a commencé avec l'acquisition de Mayhem. Cette acquisition a apporté des tests de code et d'API autonomes à la plateforme Bugcrowd. Mayhem, fondée en 2012 par des chercheurs de Carnegie Mellon, a été construite sur des techniques d'exécution symbolique et de fuzzing développées à l'origine pour le Cyber Grand Challenge de la Defense Advanced Research Projects Agency.

Les environnements d'apprentissage par renforcement de Bugcrowd visent à combler le fossé entre ce sur quoi les agents d'IA sont formés et ce qu'ils rencontrent dans le monde réel, où la sécurité est souvent compromise. La société lance également ExploitBench, un cadre pour mesurer les capacités de développement d'exploits des modèles d'IA.

Perspective

Les efforts de Bugcrowd ciblent une partie spécifique de la pile d'infrastructure d'IA qui a suscité un intérêt croissant de la part des développeurs de modèles qui tentent de faire progresser les agents au-delà de la détection et vers le territoire plus difficile de l'exploitation validée et de la correction. Selon Dave Gerry, PDG de Bugcrowd, « l'écart entre ce sur quoi les agents d'IA sont formés et ce qu'ils rencontrent dans le monde réel est où la sécurité se brise ». Les environnements d'apprentissage par renforcement de Bugcrowd donnent aux équipes de pointe les infrastructures nécessaires pour construire des IA qui apprennent la sécurité à partir de vulnérabilités réelles, et non d'approximations.