Introduction

L'entreprise Speechify, spécialisée dans l'IA vocale, a lancé une application native pour Windows qui utilise des modèles stockés localement pour permettre la dictée et la transcription dans toutes les applications, ainsi que la lecture à haute voix d'articles, de documents et de PDF à l'aide de sa bibliothèque de voix.

Contexte Technique

L'application Speechify pour Windows effectue le traitement vocal entièrement sur le périphérique sur les PC Copilot+ (équipés de NPU d'AMD, Intel et Qualcomm) et d'autres PC Windows 11 équipés de GPU d'Intel et AMD. L'application utilise trois modèles exécutés sur le périphérique : la synthèse vocale neuronale, la détection d'activité vocale en temps réel et la transcription basée sur Whisper. Les utilisateurs peuvent configurer l'application pour basculer vers des modèles basés sur le cloud ou même les modifier pendant l'utilisation.

La société utilise le modèle open source Silero pour la détection d'activité vocale et le modèle VITS Neural pour générer de l'audio sur sept réglages de vitesse différents, permettant aux utilisateurs de faire lire des documents ou des pages Web à haute voix.

Analyse et Implications

Speechify se positionne sur le marché de la dictée et de la transcription, en concurrence avec des entreprises comme Wispr Flow, Willow et Superwhisper. L'application Windows de Speechify répond aux besoins des utilisateurs qui souhaitent utiliser des fonctionnalités de dictée et de transcription sur leur PC, notamment dans un contexte professionnel.

Le fondateur et PDG de Speechify, Cliff Weitzman, a déclaré que l'objectif de l'entreprise est de rendre la lecture et l'écriture accessibles à tous, quelle que soit la plateforme ou le périphérique utilisé. La société compte plus de 50 millions d'utilisateurs et prévoit d'étendre ses fonctionnalités à d'autres plateformes.

Perspective

Il est probable que Speechify étende ses fonctionnalités de transcription de réunions aux applications natives, permettant ainsi aux utilisateurs de transcrire des réunions sur n'importe quelle application ou navigateur. L'entreprise devra surveiller les limites de ses modèles locaux et les prochaines étapes pour améliorer ses fonctionnalités et maintenir sa position sur le marché.

La société devra également prendre en compte les risques de sécurité liés au stockage de modèles locaux et à la protection des données des utilisateurs. Enfin, l'expansion de Speechify vers de nouvelles plateformes et de nouvelles fonctionnalités devra être accompagnée d'une stratégie de mise à jour régulière pour garantir la compatibilité et la qualité de l'application.