Conception de Sites Web

Dernières Réalisations

Frédéric FilipuzziMonte Cristo 3Démo de notre CMS Voir nos réalisations

Devis Gratuit

Recevez votre devis en moins de 48h, sans aucun engagement.

 








   
création hébergement site recherche création de site création de mon site création de site vitrine création de site web
Accueil  Ressources - FAQ  

Empêcher les crawls excessifs de VoilaBot

Empêcher les crawls excessifs de VoilaBot

.

J'ai rencontré derièrement de gros soucis liés aux crawl de VoilaBot.

VoilaBot tentait d'accéderà des pages n'existant pas sur mon serveur, et surtout n'ayant jamais existé.

Cela génèrait de très nombreuses erreurs 404, et un traffic important, plusieurs milliers par jour !

Et comme chaque erreur 404 m'est notifiée par mail, ma boite en était saturée !

Voici ma parade actuelle pour éviter ces erreurs, il s'agit d'une solution via .htaccess :

Si ce n'est pas déjà fait dans votre fichier .htaccess, pensez à activer l'url-rewriting :

RewriteEngine on
RewriteBase /

Puis, intégrer les instruction de redirections pour dérouter le robot Voilà :

  RewriteCond %{REMOTE_HOST} ^natcrawlbloc.* [OR]
  RewriteCond %{HTTP_USER_AGENT} VoilaBot [OR]
  RewriteCond %{REMOTE_HOST} ^149.20.55.4
  RewriteRule .* - [F,L]

Dans mon cas, le début du domaine du robot était identique, donc facile à identifier.
Le robot est redirigé vers une page d'erreur simple, n'effectuant aucune connexion à la base, pour éviter les surcharges.

Penser également à ajouter le restriction suivante au fichier robots.txt

User-agent: VoilaBot
Disallow: /

Le robot Voilà peut cependant l'ignorer, dans mon cas, l'instruction n'a pas été suivie par leur crawler.

Ils en parlent :

CMS développé sur mesure par Conception internet doubs

Connexion

OK

Mot de passe perdu ?