Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the debug-bar domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/u670148216/domains/lucyseo.com/public_html/app/wp-includes/functions.php on line 6114

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the simple-custom-post-order domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/u670148216/domains/lucyseo.com/public_html/app/wp-includes/functions.php on line 6114

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wordpress-seo domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/u670148216/domains/lucyseo.com/public_html/app/wp-includes/functions.php on line 6114
Formation expert SEO : tout savoir sur le fichier robots.txt !

 

Le fichier robots.txt, le premier critère SEO

Le fichier robots.txt est sans doute le fichier le plus important pour l’optimisation de votre référencement naturel. A lui seul il peut bloquer l’indexation de tout votre site Internet et vous faire disparaître de l’ensemble des résultats de recherche. Ce fichier contient l’ensemble des directives pour les robots d’indexation qui arrivent sur votre site Internet.

Si vous vous lancer dans le référencement de votre site Internet, votre première action doit être de paramétrer votre fichier robots.txt. Voici tout ce qu’il faut savoir sur le fichier robots.txt.

A quoi sert le fichier robots.txt ?

Le fichier robots.txt est un fichier texte qui sert à indiquer aux robots d’exploration comment explorer le site Internet et indexer les différentes pages. Voici quelques exemples d’informations que l’on peut retrouver dans ce fichier :

  • indications aux robots d’exploration ou autres pour analyser le site Internet
  • instructions pour orienter les robots des moteurs de recherche sur certaines pages ou types de page
  • blocage de l’indexation de certaines pages ou de tout le site Internet.
  • limitation de la fréquence d’indexation des pages

Pourquoi le fichier robots.txt est-il si important pour le référencement naturel ?

On l’a vu, la première étape d’un moteur de recherche pour indexer des pages, c’est la visite de ces pages. Quand un robot d’indexation arrive sur un site Internet, sa première action est d’aller consulter le fichier robots.txt pour savoir ce qu’il peut faire ou ne pas faire sur le site Internet.

Aussi, si le fichier robots.txt indique que le robot d’indexation n’est pas autorisé à explorer et indexer le site, il n’ira pas plus loin dans sa démarche et passera au site suivant. Pour un site dont certaines pages sont déjà indexées, le fichier robots.txt pourrait avoir pour conséquence de faire sortir ces pages des résultats de recherche.

N’y voyez pas une histoire à faire peur aux nouveaux néophytes et nouveaux référenceurs, il arrive extrêmement souvent que le fichier robots.txt soit créé ou modifié par mégarde et qu’il se retrouve pas bloquer totalement l’indexation d’un site Internet.

Pour être encore plus précis, voici les 3 cas les plus courants ou l’on peut se retrouver avec un fichier robots.txt ne correspondant pas à nos attentes :

  • La mise en ligne d’un nouveau site ou la refonte d’un site existant. Très souvent, on bascule une version du site de pré-producction en production. La version de pré-production, ou de développement, qui ne doit pas être accessible au commun des mortels, est très souvent bloqué à l’indexation par un fichier robots.txt. Basculer la version de pré-production en production conserve les fichiers et donc le fichier robots.txt bloquant l’indexation
  • la mise en ligne de nouvelles modifications. Encore une fois, lors du passage d’une nouvelle fonctionnalité en production, il n’est pas rare de voir le fichier de pré-production se retrouver en ligne
  • Sous WordPress, dans réglages => lecture, il est possible de cliquer sur une case à cocher pour demander aux moteurs de recherche de ne pas indexer le site. Cliquer sur ce bouton crée un fichier robots.txt avec les instructions nécessaires pour bloquer toute tentative de référencement.

Aussi pour plus de prudence, il convient de consulter régulièrement le contenu de son fichier robots.txt pour vérifier les instructions qui s’y trouvent.

Ou trouver le fichier robots.txt ?

La bonne nouvelle est que le fichier robots.txt est très simple à trouver et ne demande ni logiciel spécifique, ni compétence technique. Son emplacement est toujours le même sur un site Internet, ainsi que son nom.

Le fichier robots.txt se trouve à la racine du site Internet et peut donc être consulté en ajoutant simplement /robots.txt à la suite du nom de domaine du site Internet, sous cette forme :

  • https://monsite.com/robots.txt

Comme annoncé ci-dessus, le fichier robots.txt doit toujours avoir ce nom de fichier, avec le s à robot. Par ailleurs, il doit être en accès libre, vous pouvez donc consulter le fichier robots.txt de n’importe quel site Internet.

Comment créer un fichier robots.txt ?

Pour créer un fichier robots.txt, le plus simple éditeur de texte suffira.

Où placer le fichier robots.txt sur son site web ?

Comme vu plus haut, le fichier robots.txt se place à la racine de son site Internet. Pour placer son fichier sur son site Internet, la méthode la plus courante est d’utiliser un logiciel ftp pour se connecter au serveur, comme pour n’importe quel autre fichier de son site.

Comment rédiger un fichier robots.txt ?

Les fichier robots.txt utilisent une syntaxe particulière, à respecter pour que les robots des moteurs de recherche puissent comprendre les instructions qui s’y trouvent.

Quelles sont les directives les plus courantes utilisées dans un fichier robots.txt ?

Un fichier robots.txt peut contenir une ou plusieurs instructions. Il est possible de limiter ces instructions à seulement certains robots ou de l’applique à l’ensemble des robots.

Chaque lot d’instruction débutera donc par la définition des User-agent qui devront prendre en compte ses instructions. Les Users-agent, ce sont les robots d’indexations.


comment vérifier si le fichier robots.txt est correctement configuré?

Si vous souhaitez vérifier que votre fichier robots.txt est correctement paramétré et donc interpretable par les moteurs de recherche, Google propose un outil qui vous permettra d’en tester la conformité : https://support.google.com/webmasters/answer/6062598?hl=fr

Sachez que l’application Lucy SEO propose aussi un outil pour vérifier le contenu de votre fichier robots.txt.

Voici quelques User-agent connus :

  • Googlebot
  • Bingbot
  • Yahoo! Slurp
  • YandexBot
  • Baidu Spider
  • DuckDuckBot
  • Exabot
  • Facebot
  • Twitterbot
  • LinkedInBot

Voici la syntaxe à utiliser pour définir le ou les User-agent :

User-agent: Googlebot

Pour appliquer des instructions à tous les User-agent connus d’un coup, voici le code à utiliser :

User-agent: *

Il sera ensuite possible de :

  • ne pas autoriser une page ou un groupe de page avec l’instruction Disallow
User-agent: *
Disallow: /admin/
Disallow: /wp-admin/*
  • autoriser une page ou un groupe de page avec l’instruction Allow
User-agent: *
Allow: /public/
Allow: /blog/*
  • d’indiquer l’accès à un fichier sitemap avec l’instruction Sitemap:
User-agent: *
Sitemap: https://www.monsite.com/sitemap.xml

En conclusion sur les fichiers robots.txt

Tout site Internet doit avoir son fichier robots.txt. Il a le pouvoir de contrôler l’indexation de l’intégralité de votre site web, et son mauvais paramétrage pourrait vous conduire à être exclu des résultats de recherche.

Voici la liste des informations les plus importantes à savoir sur ce fichier :

  • Le fichier doit être nommé « robots.txt ».
  • Le fichier doit être placé à la racine du site web.
  • Le fichier doit être un fichier texte.
  • Le fichier doit contenir une ou plusieurs règles.
  • Chaque règle commence par une ligne « User-agent: » qui spécifie le robot d’exploration auquel la règle s’applique.
  • Les règles peuvent contenir les directives « Disallow: » pour interdire l’accès à certaines parties du site, « Allow: » pour autoriser l’accès à certaines parties du site, et « Sitemap: » pour spécifier l’emplacement du sitemap du site.

Il est très important de vérifier régulièrement le contenu de son fichier robots.txt et notamment dès qu’une mise en ligne de fichier est effectuée.

Questionnaire

Avant de passer à l'étape suivante de la formation sur le référencement naturel, vérifiez vos connaissances en répondant à quelques questions.

Question 1/5

À quoi sert le fichier robots.txt ?

Qu'est-ce que le référencement naturel ?

Question 2/5

Pourquoi le fichier robots.txt est-il si important pour le référencement naturel ?

Qu'est-ce que le référencement naturel ?

Question 3/5

Où trouve-t-on le fichier robots.txt sur un site web ?

Qu'est-ce que le référencement naturel ?

Question 4/5

Comment rédige-t-on un fichier robots.txt ?

Qu'est-ce que le référencement naturel ?

Question 5/5

Comment vérifier si le fichier robots.txt est correctement configuré ?

Qu'est-ce que le référencement naturel ?