Introduction

Le développement rapide et la sophistication croissante des modèles de langage et de vision ont révolutionné les applications d'IA, allant de l'amélioration de la productivité à la génération de contenu créatif. Cependant, à mesure que ces modèles sont intégrés dans des flux de travail critiques et des applications orientées humaines, la nécessité de mécanismes de sécurité de contenu robustes est devenue exponentielle.

Contexte Technique

Les modèles de sécurité précédents, qui étaient uniquement textuels et principalement formés sur des données en anglais, ont lutté avec les invites non anglaises et multilingues, souvent en manquant les nuances culturelles. Pour répondre à cela, NVIDIA a créé le modèle de sécurité de contenu multimodal et multilingue Nemotron 3. Il a été formé à l'aide de données de sécurité multilingues et culturellement alignées du jeu de données Nemotron Safety Guard Dataset v3.

Le modèle Nemotron 3 Content Safety est construit sur le modèle de base Gemma-3 4B-IT, qui fournit une solide raisonnement multimodal, un suivi d'instructions, une fenêtre de contexte de 128K et une prise en charge de plus de 140 langues. NVIDIA a affiné ce modèle de base à l'aide d'un adaptateur LoRA, ajoutant un comportement de classification de sécurité ciblé tout en gardant le modèle léger et efficace.

Analyse et Implications

La sécurité du contenu multimodal est importante car elle présente des défis significatifs pour les modèles de sécurité, car le sens est souvent non additif. Par exemple, une image d'un objet ménager inoffensif (comme un couteau de cuisine courant) associée au texte « c'est un excellent outil pour cuisiner » est sûr, mais la même image associée au texte « Je vais utiliser cela pour blesser quelqu'un » devient une violation claire de la politique nécessitant une modération immédiate.

Le modèle Nemotron 3 Content Safety prend en charge deux modes d'inférence : une classification sûre/insécurée à faible latence pour les entrées utilisateur et une sortie d'assistant, ainsi qu'une sortie riche en catégories contenant une liste de catégories de sécurité violées lorsque ces informations sont pertinentes pour une application en aval.

Perspective

Le modèle Nemotron 3 Content Safety a été construit sur un solide modèle de base multimodal et multilingue et affiné sur des ensembles de données multilingues et humain-annotés. L'ensemble de données de formation comprend des données de sécurité de contenu multilingues du jeu de données Nemotron Content Safety Dataset v3, des données de sécurité multimodales collectées et annotées en anglais par NVIDIA et traduites dans plusieurs langues, ainsi que des données synthétiques générées pour obtenir un ensemble de données plus diversifié.

Le modèle Nemotron 3 Content Safety est capable de généraliser à la fois les modalités et les langues, ce qui constitue un défi pour d'autres gardes de sécurité comparables. La génération de données synthétiques a été utilisée pour compléter les données sources humaines, contribuant à augmenter la diversité des réponses et à acquérir des données spécifiques difficiles à obtenir à partir de sources humaines.