Introduction

Cloudflare propose désormais une nouvelle fonctionnalité permettant de crawler un site web entier avec un seul appel API, grâce à son endpoint /crawl en bêta ouverte. Cette fonctionnalité utilise le rendu de navigateur pour découvrir automatiquement les pages, les rendre dans un navigateur sans tête, et les retourner dans plusieurs formats, notamment HTML, Markdown et JSON structuré.

Contexte Technique

Les tâches de crawl s'exécutent de manière asynchrone. L'utilisateur soumet une URL, reçoit un ID de tâche, et peut vérifier les résultats au fur et à mesure que les pages sont traitées. Les fonctionnalités clés incluent la prise en charge de plusieurs formats de sortie, le contrôle de la portée du crawl, la découverte automatique des pages, le crawl incrémental et le mode statique. De plus, le crawl est conforme aux directives robots.txt, y compris crawl-delay, ce qui en fait un outil bien comporté pour les propriétaires de sites web.

Analyse et Implications

Cette fonctionnalité est particulièrement utile pour l'entraînement de modèles d'IA, la construction de pipelines RAG et la recherche ou la surveillance de contenu sur un site. Les utilisateurs peuvent configurer la profondeur du crawl, les limites de pages et les modèles d'URL pour inclure ou exclure des chemins d'URL spécifiques. Le crawl incrémental permet également de sauvegarder du temps et des coûts en évitant de recrawler des pages qui n'ont pas changé.

Perspective

Il est important de noter que cette fonctionnalité est disponible sur les plans Workers Free et Paid de Cloudflare. Pour commencer, les utilisateurs doivent se référer à la documentation de l'endpoint /crawl. Si vous configurez votre propre site pour être crawlé, assurez-vous de suivre les meilleures pratiques pour robots.txt et les sitemaps. Cette fonctionnalité a le potentiel de simplifier considérablement les tâches de crawl et d'analyse de contenu pour les développeurs et les propriétaires de sites web.