Introduction
Cekura est une plateforme de test et de monitoring pour les agents de voix et de chat IA. Les équipes utilisent Cekura pour simuler des conversations réelles, tester les prompts et le comportement des modèles de langage, et détecter les régressions avant leur mise en production.
Contexte Technique
Le problème principal est que les agents IA ne peuvent pas être testés manuellement de manière efficace. Lorsque vous mettez à jour un prompt, remplacez un modèle ou ajoutez un outil, il est difficile de savoir si l'agent se comporte toujours correctement dans les milliers de façons dont les utilisateurs pourraient interagir avec lui.
Cekura utilise la simulation pour résoudre ce problème. Des utilisateurs synthétiques interagissent avec l'agent de la même manière que les utilisateurs réels, et des juges basés sur les modèles de langage évaluent si l'agent a répondu correctement tout au long de la conversation.
Trois éléments clés font que cela fonctionne : la génération de scénarios et l'importation de conversations réelles, la plateforme de simulation d'outils et les cas de test déterministes et structurés.
Analyse et Implications
Cekura évalue les sessions de conversation dans leur ensemble, plutôt que de se concentrer sur les appels individuels aux modèles de langage. Cela permet de détecter les bogues qui ne sont visibles que lorsque l'on évalue la conversation dans son ensemble.
Les plates-formes de traçage comme Langfuse ou LangSmith sont utiles pour déboguer les appels individuels aux modèles de langage, mais elles ne sont pas conçues pour évaluer les conversations dans leur ensemble.
Perspective
Cekura est une solution clé pour les équipes qui développent des agents de voix et de chat IA. En évaluant les conversations dans leur ensemble, Cekura peut aider à détecter les régressions et à améliorer la qualité des agents IA.
Les équipes peuvent essayer Cekura gratuitement pendant 7 jours, sans carte de crédit requise. Les plans payants commencent à 30 $ par mois.