Empêcher les crawls excessifs de VoilaBot
J'ai rencontré derièrement de gros soucis liés aux crawl de VoilaBot.
VoilaBot tentait d'accéderà des pages n'existant pas sur mon serveur, et surtout n'ayant jamais existé.
Cela génèrait de très nombreuses erreurs 404, et un traffic important, plusieurs milliers par jour !
Et comme chaque erreur 404 m'est notifiée par mail, ma boite en était saturée !
Voici ma parade actuelle pour éviter ces erreurs, il s'agit d'une solution via .htaccess :
Si ce n'est pas déjà fait dans votre fichier .htaccess, pensez à activer l'url-rewriting :
RewriteEngine on
RewriteBase /
Puis, intégrer les instruction de redirections pour dérouter le robot Voilà :
RewriteCond %{REMOTE_HOST} ^natcrawlbloc.* [OR]
RewriteCond %{HTTP_USER_AGENT} VoilaBot [OR]
RewriteCond %{REMOTE_HOST} ^149.20.55.4
RewriteRule .* - [F,L]
Dans mon cas, le début du domaine du robot était identique, donc facile à identifier.
Le robot est redirigé vers une page d'erreur simple, n'effectuant aucune connexion à la base, pour éviter les surcharges.
Penser également à ajouter le restriction suivante au fichier robots.txt
User-agent: VoilaBot
Disallow: /
Le robot Voilà peut cependant l'ignorer, dans mon cas, l'instruction n'a pas été suivie par leur crawler.







