Introduction
Un utilisateur de self-hosting a remarqué que Facebook accède plusieurs fois par seconde au fichier robots.txt de son instance Forgejo, sans toucher à aucun autre fichier. Cela pose question sur les motivations derrière cet intérêt soudain pour ce fichier spécifique.
Contexte Technique
Le fichier robots.txt est utilisé pour communiquer avec les crawlers web, comme ceux de Facebook, et leur indiquer quels contenus sont accessibles ou non. L'utilisateur a identifié les requêtes provenant de Facebook grâce à l'en-tête User-Agent facebookexternalhit/1.1 et aux plages d'adresses IP de Meta. Selon la documentation de Facebook, FacebookExternalHit est utilisé pour indexer le contenu partagé sur les plateformes de Meta.
Analyse et Implications
Cette situation soulève plusieurs questions, notamment sur les raisons pour lesquelles Facebook cible spécifiquement le fichier robots.txt de cet utilisateur, et dans quelle mesure cela pourrait être lié à une erreur de leur part. Les implications incluent la consommation de bande passante et d'énergie pour ces requêtes répétées, ainsi que la possibilité d'une faille dans le système de crawling de Facebook. L'utilisateur note que, bien que cela soit intéressant, ce trafic est pour l'instant bénin pour son instance.
Perspective
Il sera intéressant de surveiller si cette situation se poursuit ou si Facebook ajuste son comportement de crawling. Les utilisateurs de self-hosting et les administrateurs de sites web devraient être conscients de ces phénomènes et vérifier leurs logs pour détecter des activités similaires. La transparence de Facebook sur ses pratiques de crawling et la gestion de ces situations sera également à suivre.