Introduction

Lors de la révision de la génération de mon blog, j'ai remarqué que mon site reçoit beaucoup de trafic provenant de bots. Pour réduire ce trafic, j'ai décidé d'enquêter sur la façon de limiter l'accès à mon site tout en permettant aux moteurs de recherche d'indexer mes pages.

Contexte Technique

Pour prévenir les bots IA de scanner ma page et utiliser ma bande passante, tout en permettant aux moteurs de recherche d'indexer mes pages, la solution est de créer un fichier robots.txt. Cependant, éditer ce fichier manuellement peut être sujet à des erreurs. Une meilleure option est d'avoir un fichier de configuration facile à éditer et à comprendre.

Puisque mon site est basé sur Hugo, je peux créer un fichier dans mon répertoire de données local et ensuite créer du code de templating pour générer le fichier. Il est important de vérifier que les fichiers de données sont stockés au format yaml et que la génération de robots.txt est activée dans le fichier de configuration de Hugo.

Analyse et Implications

La création d'un fichier robots.yaml dans le répertoire de données local avec les règles de blocage et d'autorisation pour les bots est une solution efficace. Le fichier peut contenir plusieurs groupes de règles, notamment pour bloquer les bots Meta AI, autoriser les bots de prévisualisation de liens et définir des règles par défaut pour les autres bots.

En utilisant le code de templating dans un fichier robots.txt dans le répertoire layouts, Hugo peut générer automatiquement le fichier robots.txt lors de la construction du site. Il est également important d'ajouter une carte du site (sitemap) au fichier robots.txt pour informer les moteurs de recherche de l'emplacement de la carte du site.

Perspective

Il est essentiel de noter que le fichier robots.txt n'est qu'une suggestion et que les moteurs de recherche peuvent ne pas le respecter. Il est donc important de surveiller le trafic et les logs du site pour ajuster les règles de robots.txt si nécessaire. De plus, il est recommandé de mettre à jour régulièrement le fichier robots.txt pour refléter les changements dans les bots et les moteurs de recherche.