Introduction

Les agents IA sont puissants mais fragiles. Pour les rendre plus fiables, il est nécessaire de contraindre leur espace de travail et de solution. Statewright propose une approche basée sur des machines d'états visuelles pour améliorer la fiabilité des agents IA.

Contexte Technique

Statewright utilise un moteur Rust pour évaluer les définitions de machines d'états. Il s'appuie sur une couche de plugin pour intégrer avec les agents de codage via MCP. Lorsqu'un workflow est activé, des hooks assurent automatiquement l'application des restrictions d'outils par état. Le modèle voit ainsi uniquement les outils autorisés pour chaque phase et reçoit des instructions claires pour la phase en cours.

Les machines d'états Statewright ne sont pas des DAG (Directed Acyclic Graph) mais peuvent boucler et réessayer, ce qui est nécessaire pour le travail agentic. Les agents peuvent générer des workflows via la commande statewright_create_workflow. Les outils, commandes et blocs d'environnement peuvent être personnalisés dans l'éditeur visuel.

Analyse et Implications

Les résultats de recherche montrent que Statewright améliore la fiabilité des agents IA en réduisant l'espace de travail et de solution. Les tests ont montré que les modèles passaient de 2/10 à 10/10 avec les contraintes Statewright. Les avantages incluent la prévention des actions catastrophiques et la réduction des boucles de lecture sans fin.

Cependant, il est important de noter que les définitions de workflow doivent être écrites manuellement, même si les agents peuvent les générer via statewright_create_workflow. De plus, la mise en œuvre de Statewright nécessite le support MCP dans l'agent ou des hooks pour les agents non MCP comme Codex.

Perspective

Statewright offre une approche prometteuse pour améliorer la fiabilité des agents IA. Cependant, il est essentiel de surveiller les limites de l'outil, notamment la nécessité de définitions de workflow manuelles et les limitations de la mise en œuvre. Les prochaines étapes pourraient inclure l'amélioration de l'éditeur visuel et l'extension de la prise en charge à d'autres agents et plateformes.