Introduction

Deepgram, une startup spécialisée dans l'intelligence artificielle vocale en temps réel, a annoncé la disponibilité générale de Flux Multilingual, une extension de son modèle de reconnaissance de la parole conversational Flux à 10 langues avec détection de la langue en temps réel et la possibilité de commuter entre les langues en cours d'appel.

Contexte Technique

Le modèle étendu prend en charge les langues suivantes : anglais, espagnol, français, allemand, hindi, russe, portugais, japonais, italien et néerlandais, dans un seul modèle et une interface de programmation d'application. Flux Multilingual est conçu pour les flux de dialogue plutôt que pour la transcription, ce qui le distingue des modèles de reconnaissance de la parole automatique traditionnels.

Le modèle utilise une détection de fin de tour basée sur le modèle plutôt que sur le silence pour déterminer lorsque le locuteur a terminé de parler, avec des décisions de fin de tour prises en moins de 400 millisecondes. Il prend également en charge la commutation de code natif lorsque le locuteur passe d'une langue à une autre au cours de la même conversation.

Analyse et Implications

La sortie de Flux Multilingual répond à un problème courant pour les agents vocaux qui opèrent sur différents marchés, car ils nécessitent souvent des développeurs pour assembler des modèles de transcription séparés, des couches de détection de la langue et une logique de routage, ce qui introduit de la latence et des handoffs fragiles entre les systèmes. Flux Multilingual remplace cette pile avec un seul modèle de perception qui peut prendre une indication de langue du développeur ou la détecter automatiquement.

Le système offre une précision de niveau monolingue sur toutes les 10 langues prises en charge et gère les interruptions de manière native. La sortie est compatible avec les intégrations existantes de l'API Flux et est disponible via l'API cloud de Deepgram ou en tant que déploiement autonome, avec des points de terminaison de l'Union européenne et des kits de développement logiciel.

Perspective

Les agents vocaux IA devraient bientôt devenir la norme pour les entreprises mondiales qui interagissent avec les clients. Flux Multilingual offre aux développeurs un seul modèle de perception pour créer des agents vocaux mondiaux, avec la possibilité de commuter entre les langues en cours d'appel. Les entreprises peuvent désormais offrir la même expérience fluide à tous les clients, sur tous les marchés.

Deepgram compte plus de 200 000 développeurs et 1 300 organisations qui utilisent sa plateforme, qui couvre la reconnaissance de la parole, la synthèse vocale et les capacités de parole à parole complètes. L'entreprise a traité plus de 50 000 ans d'audio et transcrit plus de 1 billion de mots à ce jour.