Introduction
L'hallucination de Whisper est un phénomène où le modèle de reconnaissance automatique de la parole (ASR) reproduit indéfiniment la même phrase, même si l'audio est clairement différent. Cela se produit lorsque le modèle rencontre des silences, des bruits de fond ou des segments audio de faible confiance.
Contexte Technique
Les modèles de reconnaissance automatique de la parole comme Whisper sont formés sur des données de parole et essaient de « remplir » les silences ou les bruits de fond en répétant la phrase la plus récente. Cela est dû au fait que les embeddings audio sont proches de zéro lorsqu'il y a du silence, et que le modèle tente de trouver la meilleure correspondance possible dans ses données d'entraînement.
Les contenus en langues indiennes, tels que le telugu, le tamoul ou l'hindi, posent des problèmes particuliers en raison des accents et du code-switching. Les modèles comme Saarika et Saaras de Sarvam AI sont spécifiquement conçus pour gérer ces cas et offrent de meilleures performances.
Analyse et Implications
L'hallucination de Whisper peut avoir des implications importantes pour les applications de transcription, telles que les podcasts, les interviews ou les contenus en ligne. Il est essentiel de prétraiter les données audio avec une détection d'activité vocale (VAD) pour éviter les hallucinations et améliorer la qualité des transcriptions.
Perspective
La solution la plus appropriée pour éviter l'hallucination de Whisper est d'ajouter une détection d'activité vocale avant la transcription. Cela peut être réalisé en utilisant des bibliothèques de VAD pour prétraiter les données audio et ne transcrire que les segments de parole. Les modèles spécifiquement conçus pour des domaines audio particuliers, tels que les langues indiennes, peuvent également offrir de meilleures performances.