Liste des articles SEO

Pourquoi le fichier robots.txt est-il donc si important ?

By 30 mai 2018 No Comments

Le fichier robots.txt qu’on place à la racine du serveur a-t-il toujours son importance? N’y-a-t-il pas d’autres chantiers plus prioritaires à initier avant?

 

Certes, le SEO a énormément évolué ces dernières années, mais les basiques sont toujours là. Et le fait de remplir le fichier robots.txt en fait partie.

Ce n’est effectivement pas ce fichier qui va vous rapporter X% de trafic supplémentaire, mais s’il est bien rempli il pourra améliorer significativement le crawl de Google sur les pages de votre site.

Qu’est-il?

C’est un fichier texte (.txt) qu’on place à la racine du serveur (tout comme le fichier sitemap.xml).

Il sert à définir les url, ou typologies d’url, ou variables d’url qu’on ne souhaite pas voir crawlées par Google et autres moteurs de recherche. Deux raisons à cela : – Ces url ne présentent pas d’intérêt pour le référencement (url dupliquées par exemple). – Google a ce qu’on appelle un « crawl budget », c’est à dire un budget de crawl (un nombre limité d’url à crawler). L’idée est de le pousser à crawler uniquement les url génératrices de trafic et de conversions, en l’interdisant justement de ne pas crawler les pages dites « inutiles » au SEO.

Par exemple, il pourra s’agir de variables filtres génératrices de duplication de contenu (typiquement les listes de produits sur les sites e-commerce qu’on peut filtrer par prix, taille, nouveautés, meilleures ventes etcetera). Il pourra s’agir également de la page panier ou création de compte également sur les sites e-commerce).

Dans ce cas, il suffit d’ajouter des lignes Disallow :* dans le fichier. Autant de lignes que jugé nécessaire. Exemples : Disallow : filtre=* Disallow : sortby=*

Bien évidemment, il convient au préalable de vérifier le trafic (global et SEO) généré par les variables d’url sujettes à être ajoutées au robots.txt. Souvent il s’avère que ces variables ne génèrent qu’un trafic très limité et ne présentent donc pas de risque à être bloquées au crawl.

L’analyse des logs serveurs permet d’analyser l’évolution du crawl de Google sur des zones spécifiques du sites (pages produits, articles, catégories, listes).

Suite à une interdiction de crawl, on peut voir très rapidement le changement de volume de crawl sur des typologies d’url. Mécaniquement, avec un travail de linking interne vers les zones cibles, Google réorientera son crawl vers les zones dites « utiles » (listes, produits, articles).

En parallèle, il est possible d’aller sur la Search Console et de renseigner les variables inutiles au référencement.

Si on a pu analyser les logs serveurs avant modification sur le robots.txt, il est tout à fait envisageable voir même conseillé de réitérer l’exercice après modification du robots.txt afin d’apprécier les évolutions du crawl de Google.

Si rien ne se passe, vérifier que les variables ajoutées dans le robots.txt sont correctement ajoutées avec la bonne syntaxe. Vérifier également qu’il s’agit des bonnes variables. Ne pas hésiter alors à effectuer de nouvelles modifications.

La recommandation première reste d’un point de vue SEO et développement d’éviter le plus possible la génération de ces variables. Il est possible de contourner le problème avec de l’Ajax ou du Javacript côté client.

nvidal

Author nvidal

More posts by nvidal

Leave a Reply

Conseil et formation en SEO