Introduction

Les outils de voix et d'audio alimentés par l'IA sont de plus en plus intégrés dans la vie quotidienne, des assistants numériques aux enceintes intelligentes et aux robots de service client. Les progrès des grands modèles de langage audio (LALM) permettent désormais de contrôler des appareils à l'aide de commandes vocales, de transcrire des réunions automatiquement ou d'identifier une chanson en cours de lecture.

Contexte Technique

Ces modèles peuvent être « piratés » à l'aide de sons imperceptibles intégrés dans l'audio, ce qui les force à exécuter des commandes non autorisées sans que l'utilisateur en ait connaissance. Des recherches récentes ont montré qu'un clip audio modifié indétectable par l'oreille humaine peut manipuler le comportement d'un modèle avec un taux de réussite moyen de 79 à 96 %. Les clips sont conçus pour fonctionner indépendamment des instructions fournies par l'utilisateur, ce qui signifie qu'ils peuvent être réutilisés pour attaquer le même modèle plusieurs fois.

Les auteurs ont testé cette approche contre 13 modèles ouverts de pointe, y compris des services de voix IA commerciaux de Microsoft et Mistral, et ont démontré qu'ils pouvaient inciter les modèles à effectuer des recherches Web sensibles, à télécharger des fichiers à partir de sources contrôlées par les attaquants et à envoyer des e-mails contenant des données utilisateur.

Analyse et Implications

La technique, appelée AudioHijack, exploite une faille de sécurité critique dans la conception des LALM : comme ces modèles peuvent recevoir des instructions au format audio, des instructions malveillantes peuvent être cachées dans des clips manipulés pour provoquer un large éventail de comportements indésirables. Les attaques peuvent être lancées en cachant des instructions malveillantes dans des vidéos en ligne, des extraits de musique ou des notes vocales que les utilisateurs interrogent un IA, ou en diffusant de l'audio malveillant lors d'un appel Zoom qui est ensuite téléchargé vers des services de transcription IA.

Les chercheurs ont utilisé une approche éprouvée pour créer des exemples adverses, qui consiste à ajuster les valeurs numériques représentant la forme d'onde dans le fichier audio numérique de manière à ne pas altérer significativement la façon dont il sonne, mais à provoquer des comportements involontaires dans le modèle lorsqu'il traite les données.

Perspective

Les résultats de cette étude soulignent la nécessité de renforcer la sécurité des modèles de voix IA pour prévenir de telles attaques. Les entreprises comme Microsoft ont déjà pris des mesures pour améliorer la résilience de leurs modèles, mais davantage de recherches sont nécessaires pour développer des contre-mesures efficaces contre ces types d'attaques. Les utilisateurs doivent également être conscients de ces risques et prendre des précautions pour protéger leurs données et leurs appareils.