Aide au référencement

Connaître les bases du référencement.

Accueil > Les bases du référencement > Comment exclure certaines pages du référencement

Comment exclure certaines pages du référencement

jeudi 11 novembre 2021, par Bruno Manach

Comment éviter que les moteurs de recherche indexent certaines pages de votre site. Explications et exemples.

Le fichier robots.txt

Un site se compose d’un certain nombre de répertoires et de pages Web qui ne doivent pas se voir indexés. Quels sont les éléments à exclure ?

  • Les pages qui dépendent d’autres pages. Par exemple, les pages de confirmation après l’envoi d’un formulaire ou des listes qui ne s’obtiennent qu’après sélection de critères.
  • Les pages privées (les statistiques du site, par exemple).
  • Des pages que vous voulez promouvoir individuellement. Dans ce cas, vous indiquez l’adresse de ces pages uniquement aux personnes intéressées.

La technique officielle : la plus récente pour exclure des pages Web consiste à placer un fichier nommé robots.txt (donc fichier texte) à la racine du serveur.

Le fichier robots.txt (Default access policy) : permet d’indiquer aux moteurs de recherche les fichiers ou répertoires (dossiers) à indexer ou à ne pas indexer.

Vous devez mettre le fichier robots.txt sur le serveur dans le répertoire principal (racine). Avant même d’indexer votre site, la grande majorité des moteurs de recherche liront ce petit fichier. Vous pouvez spécifier des directives pour un moteur de recherche en particulier ou pour tous les moteurs en utilisant l’astérisque.

Format du fichier :
Le fichier contient une ou plusieurs lignes " record " séparées par une ou plusieurs fins de ligne (CR,CR/NL, ou NL).

Comme ceci :
"<VARIABLE> :<ESPACEOPTIONNEL><VALLEUR><ESPACEOPTIONNEL>". Attention, les minuscules et majuscules sont prises en compte.

Il y a trois variables principales :

  1. User-agent : La valeur de cette variable contient le nom du moteur à qui est destiné le fichier robots.txt Vous pouvez indiquer plusieurs moteurs. Il faut absolument que cette variable soit présente. Il est recommandé d’utiliser des minuscules et de ne pas mettre la version du moteur, seulement le nom. La valeur astérisque " * " indique que le fichier s’applique pour tous les moteurs de recherche.
  2. Disallow : La valeur de cette variable indique aux moteurs de recherche les fichiers ou répertoires (dossier) à ne pas visiter donc à ne pas indexer. Elle peut contenir un URL partiel ou complet. Exemple : Disallow : /help empêche l’indexation de /help.html et /help/index.html, alors que Disallow : /help/ empêchera l’indexation de /help/index.html mais autorisera l’indexation de /help.html. Aucune valeur, indique aux moteurs de recherche l’accès total. Cette variable doit être absolument présente.
  3. Allow : Malgré son utilisation qui ne me semble pas standard, je vois quelque fois cette variable utilisée comme Disallow mais, pour permettre l’indexation de certain fichier ou répertoire (dossier). Attention quand même. Un fichier robots.txt sans aucune valeur est considérée comme inexistant. Vous pouvez indiquer des remarques à l’aide du symbole # sous serveur UNIX.

Exemple :

# Empêche l’indexation du dossier images et cgi-bin
# pour seulement les moteurs webcrawler et infoseek
User-agent : webcrawler
User-agent : infoseek
Disallow : /images/
Disallow : /cgi-bin/
# Aucune restriction pour Google
User-agent : googlebot
Disallow :
# Interdire l’indexation du site complet
# par tous les autres robots de recherche
User-agent : *
Disallow : /

Google est le premier moteur de recherche a suporter l’exclusion d’extension du fichiers.

User-agent : googlebot
Disallow : *.cgi

ATTENTION, un mauvais usage de ce fichier peut empêcher les moteurs de recherche d’indexer à tout jamais votre site.

Si vous n’avez pas accès à la racine du serveur, utilisez le META « Robots » pour exclure vos pages.

Un message, un commentaire ?

modération a priori

Ce forum est modéré a priori : votre contribution n’apparaîtra qu’après avoir été validée par un administrateur du site.

Qui êtes-vous ?
Votre message

Pour créer des paragraphes, laissez simplement des lignes vides.