Introduction

Plus de la moitié de la population mondiale parle plus d'une langue. Pour de nombreux locuteurs bilingues, le code-switching - basculer sans effort entre les langues, même au milieu d'une phrase - est une partie naturelle de la communication quotidienne. Que ce soit dans des conversations informelles, des centres de contact ou des services d'assistance informatique, les locuteurs s'adaptent en fonction de la langue qui leur semble la plus naturelle à chaque instant.

Contexte Technique

Malgré la prévalence des locuteurs bilingues à travers le monde, il y a eu peu de travaux axés sur la façon dont les agents vocaux gèrent le code-switching dans les environnements d'entreprise. Lorsqu'un client nous a demandé comment nos agents vocaux se comporteraient pour leur base de clients largement bilingue qui code-switchait régulièrement, nous avons décidé de créer notre propre référence et ensemble de données pour évaluer les modèles. Nous nous sommes concentrés sur la reconnaissance automatique de la parole (ASR) - la première étape de tout pipeline d'agent vocal - car les erreurs de transcription se propagent vers les composants en aval.

Analyse et Implications

Nous avons évalué les performances de sept systèmes ASR, notamment des modèles de reconnaissance vocale avancés et des modèles open-source. Nos principaux résultats montrent que le coût du code-switching varie en fonction de la paire de langues et du modèle testé. Les modèles ElevenLabs Scribe V2, Gemini 3 Flash et Assembly AI Universal 3-Pro se démarquent comme les meilleurs modèles pour cette tâche.

Nous avons utilisé trois métriques pour évaluer les performances des modèles : le taux d'erreur de mots (WER), le taux d'erreur sémantique de mots (SWER) et le taux d'erreur de réponses (AER). Ces métriques nous permettent de capturer à la fois l'exactitude des transcriptions et la capacité des modèles à préserver le sens des énoncés pour les tâches en aval.

Perspective

Les résultats de cette étude soulignent l'importance de prendre en compte le code-switching dans la conception et l'évaluation des agents vocaux. Les entreprises qui servent des clients bilingues doivent s'assurer que leurs agents vocaux sont capables de gérer efficacement le code-switching pour fournir une expérience utilisateur de haute qualité. Les limites de cette étude résident dans la portée des langues et des scénarios évalués, et des recherches supplémentaires sont nécessaires pour explorer davantage les implications du code-switching dans les environnements d'entreprise.