Empêcher les crawls excessifs de VoilaBot
Publié le Mercredi 22 Avril 2009
J'ai rencontré derièrement de gros soucis liés aux crawl de VoilaBot.
VoilaBot tentait d'accéderà des pages n'existant pas sur mon serveur, et surtout n'ayant jamais existé.
Cela génèrait de très nombreuses erreurs 404, et un traffic important, plusieurs milliers par jour !
Et comme chaque erreur 404 m'est notifiée par mail, ma boite en était saturée !
Voici ma parade actuelle pour éviter ces erreurs, il s'agit d'une solution via .htaccess :
Si ce n'est pas déjà fait dans votre fichier .htaccess, pensez à activer l'url-rewriting :
RewriteEngine on
RewriteBase /
Puis, intégrer les instruction de redirections pour dérouter le robot Voilà :
RewriteCond %{REMOTE_HOST} ^natcrawlbloc.* [OR]
RewriteCond %{HTTP_USER_AGENT} VoilaBot [OR]
RewriteCond %{REMOTE_HOST} ^149.20.55.4
RewriteRule .* - [F,L]
Dans mon cas, le début du domaine du robot était identique, donc facile à identifier.
Le robot est redirigé vers une page d'erreur simple, n'effectuant aucune connexion à la base, pour éviter les surcharges.
Penser également à ajouter le restriction suivante au fichier robots.txt
User-agent: VoilaBot
Disallow: /
Le robot Voilà peut cependant l'ignorer, dans mon cas, l'instruction n'a pas été suivie par leur crawler.


Publier un commentaire
Les commentaires seront soumis à l'administrateur du site pour vérification. Celui-ci se réservera le droit de supprimer les publications non conformes qui ne respectent pas les règles.