Introduction
L'auteur a passé six mois à travailler sur un projet de startup, en construisant des prototypes d'agents pour une grande entreprise de biens de consommation. Il a constaté que les agents vocaux sont puissants, mais que les plateformes existantes cachent une complexité importante. L'auteur s'est alors demandé s'il pouvait construire lui-même la couche d'orchestration d'un agent vocal, avec des performances similaires à celles des plateformes existantes.
Contexte Technique
Les agents vocaux sont plus complexes que les agents de chat, car ils nécessitent une orchestration continue et en temps réel de plusieurs modèles. L'auteur a identifié les deux états principaux d'un agent vocal : l'utilisateur parle ou écoute. Les transitions entre ces deux états sont les plus difficiles à gérer. L'auteur a utilisé un modèle de détection de voix (VAD) pour détecter la présence de parole et a construit une machine à états simple pour gérer les transitions.
Analyse et Implications
L'auteur a constaté que la détection de voix est un problème plus facile que la détection de fin de parole. Un modèle de VAD peut détecter la présence de parole, mais ne peut pas déterminer si l'utilisateur a terminé sa phrase. L'auteur a donc ajouté une transcription et un modèle de langage pour améliorer la compréhension de l'utilisateur. Les résultats ont montré que l'agent vocal construit par l'auteur avait une latence inférieure à 500ms, ce qui est comparable aux plateformes existantes.
Perspective
L'auteur conclut que la construction d'un agent vocal de latence inférieure à 500ms est possible, mais nécessite une compréhension approfondie de l'orchestration des modèles et de la gestion des transitions entre les états. Les prochaines étapes consisteront à améliorer la compréhension de l'utilisateur et à intégrer d'autres modèles pour améliorer la qualité de l'agent vocal. Les entreprises qui souhaitent développer des agents vocaux doivent prendre en compte la complexité de l'orchestration et la gestion des transitions pour offrir une expérience utilisateur de haute qualité.