Introduction
Le Test de Lecture pour Agents IA est un benchmark qui évalue la capacité des agents de codage IA à lire le contenu web. Les agents de codage IA, tels que Claude Code, Cursor et GitHub Copilot, lisent des sites de documentation dans le cadre de leurs flux de travail. Cependant, la plupart des agents rencontrent des modes d'échec silencieux, tels que la troncation de contenu, le CSS qui cache le texte réel, le rendu client qui livre des coquilles vides et le contenu en onglets qui se sérialise en murs de texte où seul le premier variant est visible.
Contexte Technique
Chaque page de test est conçue autour d'un problème spécifique documenté dans la spécification de documentation conviviale pour les agents. Les pages intègrent des jetons de canari à des positions stratégiques. Au lieu de demander aux agents de rechercher les jetons, le test donne aux agents des tâches de documentation réalistes. Seul après que l'agent a terminé toutes les tâches, il apprend à propos des jetons de canari et signale lesquels il a rencontrés. Les résultats sont ensuite collés dans un formulaire de notation.
Les tests incluent des pages avec des jetons de canari à des positions spécifiques, des pages avec du CSS en ligne avant le contenu réel, des pages avec un rendu client, des pages avec des variantes de langage en onglets, des pages avec des messages d'erreur, des pages avec des clôtures de code non fermées et des redirections 301.
Analyse et Implications
Le test a un score maximum de 20 points. Chaque jeton de canari trouvé rapporte 1 point, et les réponses correctes aux questions qualitatives rapportent 1 point chacune. Un score parfait est peu probable pour tout agent actuel. Les tests sont calibrés de sorte que chaque mode d'échec affectera réaliste au moins certains agents. Une plage de scores typique pour les agents actuels est probablement de 14 à 18 sur 20, en fonction du pipeline de récupération web de la plate-forme.
Perspective
Le Test de Lecture pour Agents IA est un projet complémentaire à la spécification de documentation conviviale pour les agents, qui définit 22 vérifications dans 8 catégories pour évaluer la façon dont les sites de documentation servent les consommateurs d'agents IA. La spécification est ancrée dans l'observation empirique de flux de travail d'agents réels. Ce benchmark inverse la perspective : au lieu de tester le site de documentation, il teste l'agent. Les mêmes modes d'échec s'appliquent, mais ici, nous mesurons lesquels des agents les gèrent avec grâce et lesquels ne le font pas.