Comprendre le crawl et l’exploration

Pour découvrir de nouvelles pages à indexer, les moteurs de recherche utilisent un algorithme appelé le crawl ou encore le crawling, qui leur permet d’envoyer des robots parcourir le web automatiquement. Ce processus est indispensable pour récolter les informations sur votre site et décider sur quels mots-clés vos pages doivent apparaîtrent et en quelle position.

Pour vous donner une idée dans l’importance du crawl aujourd’hui, Google déclare effectuer des milliards de crawls chaque jour pour découvrir et indexer des pages web. En 2020, l’index de Google contenait plus de 130 000 milliards de pages web.

Voici, sous forme de question/réponse dans cette partie dédiée aux moteurs de recherche de la formation d’initiation au SEO, ce qu’il faut savoir sur le crawling et l’indexation pour tout bon référenceur.

Qu’est-ce que le crawl d’un site web ?

Le crawl d’un site web est un processus automatique mis en place par les moteurs de recherche pour parcourir le web à la recherche de contenu à indexer. il est exécuté par des robots (des ordinateurs), que l’on appelle « crawlers » ou « spiders ».

Comment fonctionne le crawl d’un site web ?

Le crawler débute son travail d’une première page du site à indexer, la plupart du temps de la page d’accueil. Le robot va parcourir la page comme si elle était affichée sur un navigateur, en récupérer les informations qui l’intéressent :

Les fameux critères SEO, toutes les informations qui seront pris en compte pour le choisir sur quels mots-clés faire apparaître la page dans les résultats de recherche et à quelle place la positionner. On citera par exemple la balise <h1> de la page, la méta description ou la balise <title>. Ce sont ce qu’on appelle les critères « On Page ».
La liste de tous les liens présents sur la page qui pointent vers d’autres pages du site Internet ou vers des pages extérieures. Le robot va ainsi se constituer une liste de page à parcourir

Cet algorithme va s’exécuter de manière récursive sur le site Internet, c’est à dire qu’il va alors passer à la page suivante de la liste, exécuter le même processus et rajouter les nouvelles pages trouvées à sa liste.

Il existe alors 2 solutions pour que l’algorithme se termine :

Le crawl peut avoir parcouru l’ensemble des pages de la liste. Il a alors parcouru tout le site Internet.
Le crawl peut s’arrêter au bout d’un certain temps, qui peut varier d’un site à l’autre. C’est ce que l’on appelle le budget crawl. On en reparle un peu plus loin.

A quelle fréquence un moteur de recherche crawl t’il un site web ?

La fréquence à laquelle un moteur de recherche parcoure un site Internet varie d’un site à l’autre. Il existe cependant des facteurs qui sont connus :

La fréquence de mise à jour du site Internet. Plus un site est régulièrement mis à jour, plus les crawler vont régulièrement trouver de nouvelles pages. Ainsi, s’ils ont l’habitude de régulièrement trouver de nouvelles pages, ils vont plus fréquemment venir parcourir le site Internet.
La taille du site Internet. Plus un site est contient, de pages, plus souvent les crawlers vont avoir tendance à se rendre sur le site à la recherche de nouvelles pages.
L’autorité du site. Plus un site est connu, reconnu, génère de trafic, plus les robots des moteurs de recherche vont aller souvent mettre à jour leurs informations sur le site Internet.
La performance du site Internet. Plus les pages d’un site Internet sont rapides à charger, plus les crawler vont pouvoir parcourir de pages dans un temps imparti.
La qualité du site Internet. Si le crawler rencontre des liens cassés, souvent, des pages en erreur, 404, 502 ou autre, il peut se lasser et arrêter de crawler le site.
Le fichier robots.txt et les balises robots. Les crawlers vont aussi changer de comportement en fonction du fichier robots.txt et des balises <meta name= »robots »>.
Les fichiers sitemap qui fournissent la liste des urls du site. Si ces fichiers indiquent qu’il n’y a pas eu de changement sur le site, les crawlers peuvent arrêter leur exploration sur le site.

Qu’est ce que le budget crawl ?

On l’a vu juste au dessus, la fréquence de crawl d’un site Internet peut varier d’un site à l’autre. il est aussi possible que la quantité de ressources alloué au crawl varie d’un site à l’autre. On parle de « budget crawl ».

Le budget crawl, c’est le nombre de page qu’un moteur de recherche va parcourir pendant un crawl, le nombre de temps qu’il va passer sur le site ou le nombre de serveur qui vont être utilisés simultanément pour effectuer l’exploration du site Internet.

Cette donnée varie donc d’un site à l’autre mais aussi au cours du temps. Un site peut bénéficier pendant un certain temps d’un budget crawl important puis le voir se réduire drastiquement.

Les facteurs pris en compte sont à peu près les mêmes que pour la fréquence d’exploration des robots vue ci-dessus. A noter, certains critères peuvent pénaliser lourdement le budget crawl. C’est le cas notamment pour la performance du serveur (le temps de chargement des pages) et le nombres d’erreurs rencontrées au cours du crawl. A contrario, les sites de haute qualité et de grande autorité reçoivent généralement un budget de crawl plus important.

Comment savoir si son site a été crawlé par les moteurs de recherche ?

statistique de l'exploration des robots de Google sur la Search Console.

Il existe de nombreuses méthodes pour savoir si son site a été crawlé dernièrement :

Dans Google Search Console : une fois inscris sur Google Search Console, dans Paramètres > Statistiques sur l’exploration, vous pouvez consulter les informations concernant les crawls effectués sur votre site.
Dans Bing Webmaster Tools, comme sur Google Search Console, vous avez la possibilité de récupérer des informations sur les derniers crawls effectués sur votre site.
Sur les journaux serveurs. Si les robots d’indexation explorent votre site, vous en retrouverez la trace dans les logs des serveurs qui héberge votre site
Dans les résultats de recherche : si vous tapez une url dans les moteurs de recherche, vous pourrez consulter si elle a déjà été indexée. En utilisant la recherche « site: » suivi de votre nom de domaine, vous pourrez consulter l’ensemble des pages qui ont été indéxées à la suite des différents crawls sur votre site.

Comment bloquer le crawl et donc l’indexation de certaines pages de son site Internet ?

Toutes les pages d’un site Internet n’ont pas vocation à se retrouver dans les résultats de recherche. C’est notamment le cas pour toutes les pages d’administration du site, des pages de connexion ou des pages de résultat de recherche d’un mot sur le site. Il existe alors 2 possibilités pour bloquer l’indexation des pages :

L’utilisation du fichier robots.txt. Créé à la racine du site Internet, il permet de donner des indications sur la façon dont les robots doivent sur comporter sur le site. il est possible de bloquer le crawl sur une page en utilisant la ligne de code suivante :

Disallow: /chemin-de-la-page-a-ne-pas-parcourir/

Directement dans la page à bloquer, à l’aide de la balise meta robots. Pour bloquer le crawl d’une page par les moteurs de recherche, il suffit d’insérer la balise suivante dans la partie <head> de votre HTML :

<meta name="robots" content="noindex, nofollow">

Ces 2 méthodes sont relativement efficace pour empêcher l’indexation des pages via un crawl. Il est cependant possible que qu’elle reste présente dans les résultats de recherche si elle a été indexée depuis longtemps ou si un grand nombre de liens pointent vers cette page. Dans l’outil Google Search Console, sera alors possible de demander la désindexation de la page.

En conclusion sur le processus de crawl et l’indexation des moteurs de recherche.

Le processus de crawl joue un rôle fondamental dans la manière dont vont être indexées vos pages web. Tout le référencement est basé sur les différents crawls effectués sur votre site et optimiser le crawl vous permettra de voir plus rapidement vos pages dans les résultats de recherche.

Effectuer ses propres crawls de sont site est aussi vivement conseillé. Cela permettra de voir comment les moteurs de recherche interprêtent vos pages, les différents critères qu’ils récupèrent, les différentes erreurs qu’ils rencontrent ou simplement la liste des pages qu’il est possible de trouver sur votre site.