Introduction

Les systèmes logiciels modernes sont basés sur une hypothèse fragile : le comportement correct est reproductible. Cependant, pour les agents autonomes comme Github Copilot, cette hypothèse ne tient plus lorsque les agents interagissent avec des environnements réels.

Contexte Technique

Les agents peuvent réussir à accomplir une tâche tout en échouant aux tests en raison de la variabilité des chemins d'exécution. Les outils de test traditionnels sont conçus pour des chemins d'exécution fixes et ne peuvent pas gérer les comportements non déterministes des agents. Les approches de test existantes, telles que les tests basés sur des assertions, les outils d'enregistrement et de lecture, les tests de régression visuelle et les oracles ML, sont limitées car elles supposent que la correction est définie par l'adérence à une séquence particulière d'états observables.

Analyse et Implications

Pour valider le comportement des agents, nous devons définir ce qui est essentiel pour le succès et ce qui est incident. Nous pouvons classifier le comportement des agents en trois catégories : les états essentiels, les variations optionnelles et les chemins convergents. La distinction entre les comportements « must-have » et « incident » est basée sur les relations de dominateur issues de la théorie des compilateurs. En appliquant l'analyse de dominateur aux traces d'exécution des agents, nous pouvons identifier automatiquement les états obligatoires, les états optionnels et les points de convergence des chemins différents.

Perspective

Pour valider le comportement des agents de manière efficace, nous devons adopter une approche basée sur les graphes, tels que les Prefix Tree Acceptor (PTA), pour modéliser les comportements des agents. Cette approche nous permet de capturer la complexité des comportements agenciques et de définir une correction minimale et explicite. Enfin, il est essentiel de développer des frameworks de validation qui peuvent faire la distinction entre les « bruits incidentels » et les « échecs critiques » pour établir la confiance dans les systèmes agenciques.