Introduction
Google a présenté son nouveau modèle de synthèse vocale, Gemini 3.1 Flash TTS, qui offre un contrôle sans précédent sur les voix de l'IA. Ce modèle permet aux utilisateurs de diriger le style vocal, la livraison et le rythme des réponses des chatbots grâce à des commandes textuelles.
Contexte Technique
Contrairement à ses prédécesseurs, Gemini 3.1 Flash TTS permet aux utilisateurs de sélectionner différents accents régionaux pour les langues majeures, y compris l'anglais, avec des options telles que l'accent « Valley » ou « Southern » américain, ainsi que des variantes britanniques comme « Brixton » et « RP ». Le modèle propose également des contrôles de niveau directeur pour ajuster le style et le rythme de la voix, ainsi que des modèles de format pour les podcasts, les livres audio, les tuteurs de langue, les assistants vocaux, les guides de bien-être et les styles de diffusion d'actualités.
Les utilisateurs peuvent également « mettre en scène » en définissant l'environnement et en fournissant des instructions de dialogue spécifiques, et exporter ces paramètres sous forme de code d'API. Le modèle prend en charge plus de 70 langues, y compris le japonais, l'hindi et l'allemand, et comporte des marques d'eau SynthID pour faciliter la détection de son contenu.
Analyse et Implications
Le modèle Gemini 3.1 Flash TTS vise à offrir des expériences de parole plus naturelles et a obtenu un score de 1211 sur le leaderboard Artificial Analysis TTS, surpassant de nombreux autres modèles de synthèse vocale populaires. Ce modèle est désormais disponible pour les développeurs via l'API Gemini et Google AI Studio, ainsi que pour les entreprises via la plate-forme Vertex AI.
Perspective
Le lancement de Gemini 3.1 Flash TTS ouvre de nouvelles perspectives pour les applications de l'IA, notamment dans les domaines de la création de contenu, de la publicité et de l'assistance vocale. Cependant, il est important de surveiller les limites et les risques potentiels liés à l'utilisation de ce modèle, tels que la détection et la prévention des contenus malveillants ou trompeurs.