Identifier les pages en noindex avec Screaming Frog / Xenu + Mon outil GRATUIT

Bonjour, ça va ?

Je reviens dans un article un peu plus technique que les autres, puisqu’on va apprendre à identifier les pages de votre site en noindex, gratuitement.

Pourquoi chercher les pages en noindex ?

Il peut arriver que votre site connaisse des problèmes d’indexation, ce qui causera une perte plus ou moins importante de trafic. Et ça, c’est relou.

Plusieurs pistes peuvent être envisagées pour régler ce problème. Parmi toutes les pistes, il y a celle de la vérification de la bonne gestion des pages indexables et non indexables. Cette vérification est 100% gagnante, soit vous trouvez des pages qui ne devaient pas être indexées et vous réglez cela, soit vous découvrez du contenu qui devrait être indexé mais qui ne l’est pas, et là, c’est du pain béni : du contenu gratuit immédiatement !

Vous pouvez vous retrouver dans plusieurs cas :

Audit SEO

Lorsque nous faisons un audit SEO technique :

Selon-moi, la recherche des pages en noindex doit faire partie des points de contrôle d’un audit SEO pour s’assurer de la bonne configuration de la visibilité -ou non- de celles-ci. En effet, il peut arriver que des pages destinées à être référencées aient l’attribut noindex alors que d’autres pages, non destinées à être référencées ne le contiennent pas

Pour vérifier la bonne configuration des pages, je préconise de :

  • Lister les pages à obligatoirement référencer (généralement des pages de base présentes dans le menu)
  • Lister les pages à ne jamais référencer (pages de connexion/pages accessibles seulement en mode connecté…)

De cette manière, lorsque nous aurons le listing des pages contenant l’attribut noindex, nous saurons exactement identifier les anomalies d’un seul coup d’œil car notre liste « à indexer/à ne pas indexer » sera déjà prête.

Lorsqu’une anomalie est repérée dans quelques pages

Il peut arriver qu’en vérifiant les pages, un peu par hasard, on puisse trouver des pages qui devraient être indexées mais qui ne le sont pas. J’ai pour habitude d’essayer de retrouver l’anomalie sur plusieurs pages avant d’envisager une erreur de configuration affectant spécifiquement un type de contenu, et donc, plusieurs pages.

Ici, pour savoir si le problème est simplement une erreur de configuration, je sélectionne un échantillon de plus ou moins 10 pages utilisant un type de contenu identique. Dans la mesure où les types de contenus sont les mêmes, ils partagent la même configuration, et donc les mêmes erreurs, si elles proviennent de là.

Si le problème se reproduit sur plusieurs autres pages d’un type de contenu identique, mais pas toutes -> Il faut checker l’ensemble des pages du site pour découvrir les pages en noindex car on ne connait pas précisément les raisons qui les rendent non-indexables.

Si le problème se reproduit sur toutes les pages du type de gabarit testé -> erreur de configuration de l’agence qui a créé le site. Je préconise, de toutes façons, de sonder l’ensemble des pages du site pour voir si d’autres erreurs de configuration similaires apparaissent.

A la livraison d’un site

Que l’on soit client ou agence web, il convient, selon-moi, de vérifier qu’au moins toutes les pages soient indexables à la livraison du projet.

Bien entendu, ceci est une prestation de référencement qui doit être comprise dans le contrat. Dans le cas où ça ne serait pas le cas, je ferais un check rapide pour voir si toutes les pages sont indexables par défaut.

Côté client, lors de la réception du site, il est bien de vérifier le bon paramétrage des pages. Encore une fois, dans le meilleur des cas, en listant les pages importantes à indexer et les pages à ne jamais indexer.

Comment trouver les pages en noindex gratuitement ?

C’est simple.

Genre, vraiment simple.

Trève de blabla, on entre dans le vif du sujet. Vous aurez besoin de :

Pourquoi utiliser Xenu & Screaming Frog ? Car Screaming Frog, dans sa version gratuite va limiter le crawl à 500 ressources au total, ce qui peut arriver très vite dans la mesure où cela englobe les images, les fichiers CSS/JS, PDF et beaucoup d’autres. Disons que pour 500 ressources crawlées, vous pouvez avoir seulement une centaine de ressources de type HTML.

L’utilité de Xenu est de nous permettre de contourner cette limitation en triant les ressources pour ne garder que les pages HTML. Nous allons ensuite demander à Screaming Frog de ne crawler que les ressources de type HTML, ce qui nous permettra de crawler jusqu’à 500 vraies pages. Ce qui est quand même plus confortable.

1) – Crawl de l’ensemble des pages du site :

Ce que nous allons faire dans cette partie : Crawler TOUTES les ressources du site et exporter le résultat pour l’exploiter à posteriori.

Si vous ne connaissez pas Xenu, c’est un crawler totalement gratuit et sans restrictions d’usage. Je le trouve très bon en matière de performance, ce qui se ressent surtout lors de crawl de sites à plusieurs milliers de pages.

Justement, nous allons l’utiliser pour crawler le site à auditer.

Comment faire ?

  1. Cliquez sur File -> Check URL…
  2. Collez le lien de votre site dans le premier champ
  3. Vérifiez que la case « Check external links » est décochée
  4. Cliquez sur OK et le crawl commence

A la fin du crawl, comme vous pouvez le voir, toutes les ressources du site apparaîtront :

  • Pages html
  • Fichiers CSS/JS
  • Images
  • Liens externes
  • etc

Dans les différentes colonnes, nous aurons des informations afférent à ces ressources mais dans le cadre de cet article, nous n’allons pas les traiter. Enfin si, une colonne va nous intéresser et qui va nous permettre d’avancer, c’est la colonne « Type » qui va nous donner des informations concernant la ressource analysée. C’est également cette colonne qui va nous permettre de filtrer les pages de toutes les autres ressources.

Ce que nous allons faire, c’est d’exporter le résultat du crawl en utilisant en sélectionnant « Export to TAB separated file… » (raccourci CTRL+T ou dans le menu fichier de Xenu).

2) – Ouverture et filtrage du document :

Ce que nous allons faire dans cette partie : Rendre le fichier que nous avons exporté exploitable et ne garder que les ressources de type  « text/html », autrement dit : garder seulement les pages pour checker ensuite si elles sont en index ou noindex.

Pour cela, je vais vous faciliter la tâche avec un outil que j’ai créé spécifiquement pour cet article que j’ai baptisé, très sobrement, « Clean It, Baby ». -> Disponible ici

  1. Ouvrez Clean It, Baby
  2. Créez une copie du document : « Fichier -> Créer une copie… »
  3. Ouvrez le fichier que vous venez de créer avec Xenu
  4. Copiez tout son contenu et collez-le dans la case A14
  5. Cliquez sur le bouton « Clean It, Baby ! ».
  6. Attendez quelques secondes jusqu’à ce que le message « Exécution du script » disparaisse au détriment de « Script terminé ».
  7. Sélectionnez toutes les URLs restantes et copiez-les. (CTRL+C)

3) – Crawl des URLs avec Screaming Frog et listage des pages en noindex

Ce que nous allons faire dans cette partie : Importer les URLs restantes, lancer le crawl seulement sur celles-ci et trouver toutes les URLs de pages en noindex.

Crawler les URLs

Une fois que vos URLs ont été triées (youpi 🎉), il vous suffit de copier les URLs restantes, nous allons ensuite les importer dans Screaming Frog.

  1. Ouvrez Screaming Frog
  2. Changez le mode d’exploration en « Liste » : Onglet « Mode » -> « List ».
  3. Suite à cela, le bouton « Upload » s’affichera, cliquez sur celui-ci et sélectionnez « Paste »
  4. Screaming Frog va détecter automatiquement les URLs copiées dans le presse papier de votre ordinateur et va les importer
  5. Cliquez sur « OK », le crawl se lancera

Le crawl devrait terminer assez rapidement.

Trouver les pages en noindex

Pour trouver les pages en noindex, vous avez deux solutions :

  • Taper « noindex » dans la barre de recherche.
  • Rendez-vous dans le panneau à droite de votre écran appelé « Overview » et descendez à la partie « Directives ». Vous pourrez sélectionner « Noindex ».

Et voilà, vous avez maintenant la liste des pages de votre site contenant le tag Noindex, c’est à votre tour d’analyser s’il est justifié de demander la non-indexation de la page aux moteurs de recherche.

Si c’est justifié, tout est parfait, on ne touche rien.

Si des pages sont réglées en Noindex alors qu’elles devraient l’être : Bingo, vous avez du contenu gratuit qui dormait sous vos yeux.

Summary
Identifier les pages en noindex + outil gratuit
Article Name
Identifier les pages en noindex + outil gratuit
Douichen Sofiane
Publisher Name
Le Labo Webmarketing
Publisher Logo
Douichen Sofiane Écrit par :

SEO depuis maintenant deux ans, je travaille en agence web et je m'intéresse pas mal au e-commerce. Découvrez-en plus sur moi en cliquant ici.

Soyez le premier à commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *