Aide au référencement

Connaître les bases du référencement.

Accueil > Logiciels > Bloquer les aspirateurs de sites

Bloquer les aspirateurs de sites

dimanche 14 novembre 2021, par Bruno Manach

Les aspirateurs de sites sont des robots (bots) crawlers qui parcourt toutes vos pages pour une lecture hors-ligne de vôtre site.

Il arrive parfois que l’aspiration d’un site soit motivée par des raisons bien moins avouables. Soyons clairs, une aspiration de site permet aux escrocs d’économiser de nombreuses heures de travail (et de nombreux euros). Cela permet de disposer d’un site “prêt à l’emploi” avec des contenus déjà rédigés. Ce type d’utilisation est bien entendu totalement illégale.

Blocages des aspirateurs avec robots.txt

Certains aspirateurs sont respectueux du protocole robots.txt
Il suffit de mettre ces quelques dans vôtre fichier robots.txt placé à la racine de vôtre site :

Les robots aspirateurs de sites et robots hackers qui ne respectent pas le robots.txt passeront quand même.

Screenshot de trace-ip v4

Blocages des aspirateurs avec un script en PHP

Le script n’est pas basé sur les user-agent (facilement modifiables) ou sur le fichier robots.txt (la plupart des aspirateurs proposent de ne pas en tenir compte).
Il est basé sur le nombre de pages php chargé dans la dernière minute.
Au delà d’une certaine limite l’IP est bloquée.

Trace-IP
Un script PHP Anti Aspirateur. Version 0.2 - 15/01/2003.

Source : 1001bd.com, Renard rouge

Trace-IP v4
Le même script compatible php7

Un message, un commentaire ?

modération a priori

Ce forum est modéré a priori : votre contribution n’apparaîtra qu’après avoir été validée par un administrateur du site.

Qui êtes-vous ?
Votre message

Pour créer des paragraphes, laissez simplement des lignes vides.