debug-bar
domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init
action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/u670148216/domains/lucyseo.com/public_html/app/wp-includes/functions.php on line 6114simple-custom-post-order
domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init
action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/u670148216/domains/lucyseo.com/public_html/app/wp-includes/functions.php on line 6114wordpress-seo
domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init
action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/u670148216/domains/lucyseo.com/public_html/app/wp-includes/functions.php on line 6114Pour découvrir de nouvelles pages à indexer, les moteurs de recherche utilisent un algorithme appelé le crawl ou encore le crawling, qui leur permet d’envoyer des robots parcourir le web automatiquement. Ce processus est indispensable pour récolter les informations sur votre site et décider sur quels mots-clés vos pages doivent apparaîtrent et en quelle position.
Pour vous donner une idée dans l’importance du crawl aujourd’hui, Google déclare effectuer des milliards de crawls chaque jour pour découvrir et indexer des pages web. En 2020, l’index de Google contenait plus de 130 000 milliards de pages web.
Voici, sous forme de question/réponse dans cette partie dédiée aux moteurs de recherche de la formation d’initiation au SEO, ce qu’il faut savoir sur le crawling et l’indexation pour tout bon référenceur.
Le crawl d’un site web est un processus automatique mis en place par les moteurs de recherche pour parcourir le web à la recherche de contenu à indexer. il est exécuté par des robots (des ordinateurs), que l’on appelle « crawlers » ou « spiders ».
Le crawler débute son travail d’une première page du site à indexer, la plupart du temps de la page d’accueil. Le robot va parcourir la page comme si elle était affichée sur un navigateur, en récupérer les informations qui l’intéressent :
Cet algorithme va s’exécuter de manière récursive sur le site Internet, c’est à dire qu’il va alors passer à la page suivante de la liste, exécuter le même processus et rajouter les nouvelles pages trouvées à sa liste.
Il existe alors 2 solutions pour que l’algorithme se termine :
La fréquence à laquelle un moteur de recherche parcoure un site Internet varie d’un site à l’autre. Il existe cependant des facteurs qui sont connus :
On l’a vu juste au dessus, la fréquence de crawl d’un site Internet peut varier d’un site à l’autre. il est aussi possible que la quantité de ressources alloué au crawl varie d’un site à l’autre. On parle de « budget crawl ».
Le budget crawl, c’est le nombre de page qu’un moteur de recherche va parcourir pendant un crawl, le nombre de temps qu’il va passer sur le site ou le nombre de serveur qui vont être utilisés simultanément pour effectuer l’exploration du site Internet.
Cette donnée varie donc d’un site à l’autre mais aussi au cours du temps. Un site peut bénéficier pendant un certain temps d’un budget crawl important puis le voir se réduire drastiquement.
Les facteurs pris en compte sont à peu près les mêmes que pour la fréquence d’exploration des robots vue ci-dessus. A noter, certains critères peuvent pénaliser lourdement le budget crawl. C’est le cas notamment pour la performance du serveur (le temps de chargement des pages) et le nombres d’erreurs rencontrées au cours du crawl. A contrario, les sites de haute qualité et de grande autorité reçoivent généralement un budget de crawl plus important.
Il existe de nombreuses méthodes pour savoir si son site a été crawlé dernièrement :
Toutes les pages d’un site Internet n’ont pas vocation à se retrouver dans les résultats de recherche. C’est notamment le cas pour toutes les pages d’administration du site, des pages de connexion ou des pages de résultat de recherche d’un mot sur le site. Il existe alors 2 possibilités pour bloquer l’indexation des pages :
Disallow: /chemin-de-la-page-a-ne-pas-parcourir/
<meta name="robots" content="noindex, nofollow">
Ces 2 méthodes sont relativement efficace pour empêcher l’indexation des pages via un crawl. Il est cependant possible que qu’elle reste présente dans les résultats de recherche si elle a été indexée depuis longtemps ou si un grand nombre de liens pointent vers cette page. Dans l’outil Google Search Console, sera alors possible de demander la désindexation de la page.
Le processus de crawl joue un rôle fondamental dans la manière dont vont être indexées vos pages web. Tout le référencement est basé sur les différents crawls effectués sur votre site et optimiser le crawl vous permettra de voir plus rapidement vos pages dans les résultats de recherche.
Effectuer ses propres crawls de sont site est aussi vivement conseillé. Cela permettra de voir comment les moteurs de recherche interprêtent vos pages, les différents critères qu’ils récupèrent, les différentes erreurs qu’ils rencontrent ou simplement la liste des pages qu’il est possible de trouver sur votre site.