Introduction

Les agents de vision sont souvent utilisés pour automatiser les tâches sur les applications web qui n'exposent pas d'API. Cependant, les coûts de cette approche sont souvent sous-estimés. Une étude récente a comparé les coûts de deux approches différentes pour automatiser une tâche sur un panneau d'administration : l'utilisation d'un agent de vision et l'utilisation d'une API structurée.

Contexte Technique

Les deux agents ont été testés sur la même application, avec la même tâche à accomplir : trouver un client nommé « Smith » avec le plus de commandes, localiser sa commande en attente la plus récente, accepter toutes ses évaluations en attente et marquer la commande comme livrée. L'agent de vision a utilisé la prise d'écran et les clics pour interagir avec l'interface utilisateur, tandis que l'agent API a appelé directement les points de terminaison HTTP de l'application.

Les résultats ont montré que l'agent de vision a nécessité 14 minutes et environ 500 000 jetons d'entrée pour compléter la tâche, tandis que l'agent API a complété la tâche en 8 appels et a consommé environ 10 000 jetons d'entrée. La variance dans les résultats de l'agent de vision a également été importante, avec des temps de traitement allant de 749 secondes à 1257 secondes et des comptes de jetons d'entrée allant de 407 000 à 751 000.

Analyse et Implications

Les résultats de cette étude montrent que les coûts de l'utilisation d'un agent de vision peuvent être significativement plus élevés que ceux de l'utilisation d'une API structurée. En effet, l'agent de vision doit traiter les images de l'interface utilisateur et interpréter les données, ce qui nécessite plus de ressources et de temps de traitement. En revanche, l'agent API peut appeler directement les points de terminaison de l'application et recevoir des réponses structurées, ce qui réduit le temps de traitement et les coûts.

Ces résultats ont des implications importantes pour les entreprises qui utilisent des agents de vision pour automatiser les tâches sur les applications web. En effet, les coûts de l'utilisation d'un agent de vision peuvent être significativement plus élevés que ceux de l'utilisation d'une API structurée, ce qui peut avoir un impact sur la rentabilité et la compétitivité de l'entreprise.

Perspective

Les résultats de cette étude suggèrent que les entreprises devraient considérer l'utilisation d'API structurées pour automatiser les tâches sur les applications web, plutôt que de recourir à des agents de vision. Cependant, il est important de noter que les agents de vision peuvent toujours être utiles pour les applications qui n'exposent pas d'API ou pour les cas où l'utilisation d'une API structurée n'est pas possible. En fin de compte, le choix entre l'utilisation d'un agent de vision ou d'une API structurée dépendra des besoins spécifiques de l'entreprise et des coûts associés à chaque approche.