Microsoft lance de nouveaux modèles de voix et d'image haute vitesse

Introduction

Microsoft a annoncé le lancement de trois nouveaux modèles d'intelligence artificielle (IA) conçus pour traiter les images et les données audio. Ces modèles sont disponibles via Microsoft Foundry, un service Azure qui permet aux développeurs de créer des applications IA.

Contexte Technique

Le premier modèle, MAI-Image-2, peut générer des images avec une résolution allant jusqu'à 1024 x 1024 pixels en fonction des instructions utilisateur. Il utilise entre 10 et 50 milliards de paramètres non intégrés pour générer des images. Microsoft affirme que MAI-Image-2 est au moins deux fois plus rapide que son prédécesseur.

Le deuxième modèle, MAI-Transcribe-1, offre des améliorations significatives en termes de vitesse et de précision. Il peut transcrire la parole 2,5 fois plus vite que les modèles précédents de Microsoft, avec une erreur moyenne de mot de 3,9% sur 25 langues. Ce modèle prend en charge la transcription par lots et devrait bientôt prendre en charge la transcription en temps réel.

Le troisième modèle, MAI-Voice-1, est conçu pour générer de la parole synthétique à partir de scripts fournis par l'utilisateur. Les clients peuvent choisir parmi des voix IA intégrées ou utiliser leur propre voix.

Analyse et Implications

Ces nouveaux modèles offrent des tarifs compétitifs par rapport à la concurrence. MAI-Image-2 est facturé 5 $ par million de jetons d'entrée et 33 $ par million de jetons de sortie. MAI-Transcribe-1 coûte 0,36 $ par heure de parole transcrite, tandis que MAI-Voice-1 commence à 22 $ par million de caractères.

Ces modèles sont disponibles non seulement via Microsoft Foundry, mais également via plusieurs autres services. Microsoft déploie actuellement MAI-Image-2 dans Bing et PowerPoint, tandis que MAI-Voice-1 est accessible dans un outil de création audio appelé Copilot Audio Expressions.

Perspective

Microsoft a également développé une série de puces IA personnalisées appelées MAIA pour alimenter ses charges de travail IA. La dernière addition à la série, la puce Maia 200, a été annoncée fin janvier. Microsoft affirme que cette puce de trois nanomètres surpasse les puces IA personnalisées des fournisseurs de cloud concurrents sur plusieurs benchmarks.

Microsoft lance de nouveaux modèles de voix et d'image haute vitesse

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Éditeur Rust avec mode Vim simplifié

La vidéo composite sur NES

La pile complète des terminaux expliquée

Circuits maudits : multiplicateur de capacité

Microsoft lance de nouveaux modèles de voix et d'image haute vitesse

Introduction

Contexte Technique

Analyse et Implications

Perspective

Articles similaires

Éditeur Rust avec mode Vim simplifié

La vidéo composite sur NES

La pile complète des terminaux expliquée

Circuits maudits : multiplicateur de capacité

Sauvegarder l'article