Introduction
Cohere, une entreprise d'IA, a lancé son premier modèle vocal : Transcribe, un modèle de reconnaissance automatique de la parole open-source qui peut être utilisé pour des tâches telles que la prise de notes et l'analyse de la parole.
Contexte Technique
Transcribe est un modèle relativement léger, avec seulement 2 milliards de paramètres, ce qui le rend adapté pour une utilisation avec des GPU de consommation. Il prend actuellement en charge 14 langues, notamment l'anglais, le français, l'allemand, l'italien, l'espagnol, le portugais, le grec, le néerlandais, le polonais, le chinois, le japonais, le coréen, le vietnamien et l'arabe.
Le modèle a été testé sur la plateforme Hugging Face Open ASR et a obtenu un taux d'erreur moyen de 5,42, ce qui est inférieur à celui des autres modèles de la plateforme. Cependant, Transcribe a eu des difficultés à transcrire certaines langues, notamment le portugais, l'allemand et l'espagnol.
Analyse et Implications
La sortie de Transcribe intervient à un moment où la demande pour les applications de prise de notes et de dictée augmente. Le modèle peut traiter 525 minutes d'audio en une minute, ce qui est élevé pour sa catégorie de modèle. Cohere prévoit d'intégrer Transcribe dans sa plateforme d'orchestration d'agents d'entreprise, North, et de le rendre disponible via son API gratuitement.
Le modèle sera également disponible sur Model Vault, la plateforme d'inférence gérée de Cohere. L'entreprise a indiqué que Transcribe avait un taux de victoire moyen de 61% par rapport aux autres modèles lorsqu'il s'agissait d'évaluer l'exactitude, la cohérence et l'utilisabilité des transcriptions.
Perspective
La sortie de Transcribe est une étape importante pour Cohere, qui a indiqué générer un revenu annuel récurrent de 240 millions de dollars en 2025. L'entreprise prévoit peut-être de se lancer dans le marché boursier prochainement. Il faudra surveiller les prochaines étapes de Cohere et les implications de la sortie de Transcribe sur le marché de la reconnaissance automatique de la parole.
Les limites de Transcribe, notamment sa difficulté à transcrire certaines langues, devront être abordées pour améliorer son efficacité. De plus, il faudra évaluer les risques et les implications de sécurité liés à l'utilisation d'un modèle de reconnaissance automatique de la parole open-source.