Introduction
IBM présente Granite 4.0 1B Speech, le dernier modèle de reconnaissance vocale de la collection Granite Speech. Conçu pour les applications d'entreprise sur des appareils à ressources limitées, ce modèle de langage compact est destiné à la reconnaissance automatique de la parole (ASR) et à la traduction vocale bidirectionnelle (AST) multilingue.
Contexte Technique
Granite 4.0 1B Speech offre une précision de transcription anglaise plus élevée, une inférence plus rapide grâce au décodage spéculatif et une prise en charge linguistique étendue, couvrant désormais l'anglais, le français, l'allemand, l'espagnol, le portugais et le japonais. Le modèle est doté de la moitié des paramètres de son prédécesseur, ce qui en fait un choix intéressant pour les applications où les ressources sont limitées.
Analyse et Implications
Malgré sa petite taille, Granite 4.0 1B Speech obtient des résultats très compétitifs sur les benchmarks standard de reconnaissance vocale anglaise. Les performances sont mesurées à l'aide du taux d'erreur de mot (WER), où des scores plus bas indiquent une meilleure précision. Le modèle a récemment occupé la première place du classement OpenASR, mettant en évidence ses solides performances parmi les systèmes de reconnaissance vocale ouverts.
Perspective
Pour les déploiements de production nécessitant une détection de risque supplémentaire, nous recommandons de coupler Granite 4.0 1B Speech avec Granite Guardian. La communauté est invitée à essayer ce modèle et à partager ses impressions. Avec sa licence Apache 2.0 et son support natif dans les transformers et vLLM, Granite 4.0 1B Speech est prêt à être utilisé dans une variété d'applications.