Introduction

Un nouveau rapport de Cisco Systems Inc. révèle que aucun des modèles d'IA fermés testés ne peut être considéré comme sûr lorsqu'un attaquant peut dépasser une simple invite, car les taux de réussite des attaques augmentent considérablement pour chaque modèle.

Contexte Technique

L'équipe de recherche sur les menaces d'IA de Cisco a testé 15 modèles propriétaires de grandes entreprises comme OpenAI, Anthropic, Google, Amazon et xAI, en mesurant les taux de réussite des attaques multi-tours entre 7,9% et 88,3%, contre des taux de 2,2% à 64,9% pour les attaques à tour unique.

Les résultats montrent que les modèles qui semblaient solides lors des tests à tour unique ne résistent pas nécessairement aux attaques multi-tours, et que les écarts entre les taux de réussite à tour unique et multi-tours sont importants, allant jusqu'à 88,3% pour le modèle Grok 4.1 Fast de xAI.

Analyse et Implications

Les résultats de cette étude ont des implications importantes pour la sécurité et la fiabilité des modèles d'IA, car ils montrent que les attaques multi-tours peuvent être beaucoup plus efficaces que les attaques à tour unique.

Les entreprises qui utilisent ces modèles doivent être conscientes de ces risques et prendre des mesures pour les atténuer, comme la mise en place de garde-fous et de mécanismes de surveillance pour détecter et prévenir les attaques.

Perspective

Les résultats de cette étude soulignent la nécessité pour les fournisseurs de modèles d'IA de documenter les effets de la sécurité des drapeaux de configuration, tels que les modes de raisonnement, les paramètres de température et les niveaux de garde-fou, afin de permettre aux utilisateurs de prendre des décisions éclairées sur la sécurité de leurs modèles.

Les entreprises doivent également être conscientes des concentrations de défaillances sur le côté à tour unique, comme les procédures « Imposter AI » et les attaques de paraphrase, et prendre des mesures pour les prévenir.