fbpx

Accueil » Blog » 3 solutions pour vérifier que Google passe bien sur votre site

RGPD :

Commentaires – 

0

Commentaires – 

0

3 solutions pour vérifier que Google passe bien sur votre site

22 Juil 2022

En SEO, il n’y a pas que Google dans la vie. Cela dit, avec ses 92% de parts de marché, c’est tout comme… Si vous vous êtes fixé des objectifs de trafic naturel pour votre site, il est très probable que toute votre attention soit tournée vers le leader des moteurs de recherche.

Mais qu’en est-il de l’autre côté de l’algorithme ? Comment connaître l’attention que Google prête à votre site ?

Pour évaluer l’importance que Google donne à vos contenus et vérifier qu’il référence correctement vos pages, il vous faut en fait vous pencher sur l’activité de ses robots d’indexation : les Googlebots.

Comprendre le fonctionnement de cet index qui fait la pluie et le beau temps dans le référencement web, c’est vous donner les moyens de mieux analyser l’impact de vos actions SEO. C’est donc vous donner les moyens d’optimiser votre stratégie d’acquisition de trafic organique.

Alors, avant de vous livrer les 3 techniques pour observer quand et comment les robots de Google passent sur votre site pour l’indexer, on vous propose un mini guide sur les principaux enjeux de cette indexation.

 

 

analyse de logs pour vérifier passages googlebot

 

Qu’est-ce que l’indexation Google ?

 

L’index de Google fonctionne comme une base de données géante dans laquelle sont enregistrées toutes les pages web dont le moteur de recherche a pris connaissance. Actuellement, on estime que cet index référence 130 000 milliards d’URLs.

Ces pages sont réparties en 2 index : l’index principal et l’index secondaire, pour les pages jugées de moindre qualité (celles que les utilisateurs ne peuvent faire apparaître dans la SERP qu’en cliquant sur « Relancer la recherche en incluant les pages ignorées »). Et c’est aux robots d’indexation que revient cette mission d’indexer et de classer en continue les pages des milliards de sites mis en ligne.

 

Le rôle des Googlebots

 

Les Google Bots (aussi appelés « spiders ») explorent en permanence les pages de l’index et suivent les liens qu’elles contiennent pour découvrir de nouvelles pages. On dit qu’ils « crawlent » (du verbe anglais « to crawl » : parcourir) les sites web, pour en extraire le contenu et le stocker sur les serveurs de Google.

De leur côté, les propriétaires de sites web peuvent orienter le comportement des Googlebots (et des robots d’indexation des autres moteurs de recherche) grâce au fichier robots.txt, via lequel il est possible de leur transmettre des consignes d’indexation. Rien n’oblige les robots à suivre ces consignes. Mais, en orientant efficacement leur exploration et donc en leur évitant de passer trop de temps sur les parties les moins importantes d’un site, on peut améliorer le référencement de ce site.

 

Le budget Crawl de votre site

 

En fonction de la taille et du niveau de notoriété de votre site, vous bénéficiez de plus ou moins de temps des spiders sur vos pages, qui vont ainsi pouvoir explorer plus ou moins d’URLs à des intervalles eux aussi plus ou moins rapprochés dans le temps. Ce « budget d’exploration » (ou « crawl budget ») dont vous disposez doit donc être géré de manière intelligente. On a notamment abordé cette question dans notre article sur le siloing hermétique en SEO.

Comme souvent en SEO, l’idée est de limiter au maximum les pages dont les contenus ont peu de valeur pour les utilisateurs et de donner le moins d’importance possible à ces pages dans la structure de votre site. À l’inverse, les pages importantes de votre site doivent bénéficier d’un maillage interne qui traduit cette importance.

Notons ici que certaines pratiques de « cloaking white hat » permettent d’afficher à Googlebot une version de votre site différente de celle qui est affichée à vos visiteurs humains. Il s’agit cependant d’une approche périlleuse, qui ne devrait pas être envisagée en priorité.

 

L’indexation à l’ère Mobile-First

 

En 2022, 60% des sessions de navigation sur internet se font sur un mobile. Naturellement, Google a donc décidé de faire lui aussi naviguer ses robots d’indexation en mode « mobile ». L’annonce avait été faite dès 2016 et, après plusieurs années de transition, la version de référence sur laquelle sont indexés tous les sites est aujourd’hui la version mobile.

Concrètement, cela signifie que les sites qui n’ont pas mis en place un design responsive (c’est-à-dire optimisé pour la navigation sur mobile et tablette) voient désormais leur référencement naturel pénalisé par leur mauvaise UX. Certes, cela n’impacte pas l’indexation des pages en soi, mais cela impacte leur visibilité dans les résultats de recherche.

 

Vérifier la bonne indexation de vos pages web

 

Avant de vérifier quand et à quelle fréquence les spiders de Googlebot passent sur les pages de votre site, il faut déjà vérifier qu’ils y soient déjà passés une première fois. Et, pour être sûr que les différentes pages de votre site, notamment les plus récentes, s’indexent correctement sur Google, la solution traditionnelle consiste à utiliser la commande de la barre de recherche prévue pour cela : « site:monsiteweb.com ».

Si en procédant ainsi certaines de vos pages ne ressortent pas dans l’index, vous pouvez ensuite corriger cela via la Search Console. Une fonctionnalité spécifique permet d’y envoyer vos demandes d’URLs à indexer.

 

Accélérer l’indexation des pages de votre site

 

Indexer vos pages sur Google est une chose. Les indexer rapidement en est une autre. En l’occurrence, en respectant certaines bonnes pratiques, il est possible d’avoir une influence sur ce paramètre…

 

Pourquoi indexer vos pages plus vite ?

 

Certes, le SEO a la réputation d’être un investissement à plus ou moins long terme, mais, parfois, il peut aussi répondre à des objectifs à court terme. Et, quoi qu’il en soit, quand on vient de mettre en ligne une nouvelle page qui a du potentiel, on a envie d’en profiter aussi vite que possible !

Indexer rapidement une page, c’est générer rapidement du trafic ou, si cette page se positionne mal, se donner les moyens de faire rapidement des optimisations. Dans certains secteurs, par exemple en e-commerce, ce délai d’indexation peut avoir des conséquences tangibles sur le chiffre d’affaires. Imaginez une page prévue pour le Black Friday qui ne s’indexerait que mi-décembre…

Pour éviter une telle situation, mieux vaut mettre toutes les chances de votre côté de faire rapidement venir les googlebots sur vos pages.

 

Comment indexer vos pages plus vite ?

 

On a déjà consacré tout un article sur ce blog aux astuces pour accélérer l’indexation des pages d’un site sur Google. Il ne s’agit donc pas d’y revenir ici dans le détail. Si le sujet vous concerne, allez le lire et vous y découvrirez comment parvenir à cet objectif en vous appuyant sur certains facteurs clés :

  • Votre fichier sitemap
  • L’architecture de votre maillage interne
  • L’utilisation de la Search Console
  • Le recours à des backlinks
  • Les sites de « ping »
  • Les réseaux sociaux
  • Le recyclage d’anciennes URLs

Ce sont des détails, mais des détails qui peuvent avoir un impact intéressant sur le ROI de votre stratégie SEO.

 

Analyse de logs : 3 moyens de vérifier les passages des Googlebots sur votre site

 

Maintenant que vous êtes incollable sur le fonctionnement de l’index de Google et les approches d’indexation rapide des nouvelles pages d’un site, il vous reste à optimiser ce processus sur votre propre site. Or, pour cela, vous avez besoin de pouvoir analyser les passages de Googlebot sur vos pages.

Cela tombe bien, quand les robots d’indexation passent sur votre site, ils y laissent des traces. Ces traces sont visibles dans les « logs » de votre site. Pour les observer, il faut donc analyser le fichier de logs.

Voici 3 solutions pour mener cette analyse :

 

La Google Search Console

 

Lorsqu’il s’agit d’analyser la manière dont Googlebot navigue sur un site, la Search Console, outil maison de Google, est la solution gratuite principale, tout en étant la plus accessible aux débutants. Vous pouvez ainsi y accéder aux statistiques de crawl de vos pages et en retirer notamment deux informations importantes :

  • Le ratio de pages crawlées par rapport au nombre total de pages de votre site
  • Les éléments bloquants relevés par Googlebot, en l’occurrence les erreurs de crawl (en particulier les erreurs 404)

En apprenant à utiliser correctement ces informations, vous pourrez donc optimiser votre site en vous fondant sur les pratiques d’indexation réelles de Google.

  • Une page peut par exemple être explorée par Google mais non indexée. La Search Console permet d’observer cela sous les blocs :
    « Explorée, actuellement non indexée »
  • « Détectée, actuellement non indexée »

Ici une vraie expertise voir un audit SEO approfondi est essentiel :

DEMANDER UN AUDIT SEO

Certaines pages pouvant rester dans cette zone de non indexation de quelques jours à quelques mois.

 

Le fichier robots.txt

 

Grâce à des commandes intégrées dans le fichier « robots.txt » d’un site, il est possible de tracer les passages des spiders de Google grâce à leurs adresses IP. En réalité, les adresses IP des robots d’indexation changent régulièrement et ne sont pas divulguées. Mais, en procédant à une recherche d’adresses inversée pour récupérer les noms de « user-agents », il est possible de retrouver la trace de Googlebot et, donc, d’observer comment il visite les différentes pages de votre site.

Cela dit, cette méthode n’est pas recommandée pour les débutants, car une erreur de commande dans le fichier robots.txt peut bloquer toute l’indexation d’un site… Si vous avez un doute, n’hésitez pas à vous rapprocher de notre pôle SEO pour un audit gratuit. L’utilisation de ce fichier est cruciale, mais il est à manier avec beaucoup de précautions.

 

Les logiciels d’analyse de logs

 

Ces outils sont relativement accessibles pour des débutants avancés et ils permettent de pousser l’analyse plus loin qu’avec la Search console. Alors, certes, il faut payer pour utiliser pleinement ces outils, mais les tarifs sont généralement abordables.

Le principal avantage d’un logiciel analyseur de logs est qu’il permet de segmenter l’analyse des crawls de pages. Sur des sites volumineux, par exemple en e-commerce, cette fonctionnalité est très appréciable, car elle permet d’extraire le taux de crawl par types de pages.

Parmi les outils les plus connus du genre, on trouve Screaming Frog, Loggly, Botify, Logz.io, Oncrawl, Kibana ou encore SEOlyzer. N’hésitez pas à en tester plusieurs en version gratuite avant de vous orienter vers celui qui vous correspond le mieux.

 

Cette question des analyses de logs vous paraît peut-être un peu technique, mais c’est un enjeu incontournable dans la définition d’une stratégie SEO ambitieuse. Et pour cause, c’est le seul moyen d’identifier réellement comment Google interagit avec votre site.

 

 

Vous souhaitez en savoir + ?

Vous aimerez aussi :

Comment réduire son empreinte carbone numérique ?

Comment réduire son empreinte carbone numérique ?

Si le secteur numérique était un pays, il serait le 3e consommateur d'électricité dans le monde. Seuls les États-Unis et la Chine seraient devant. Concrètement, on estime que le secteur du digital consomme près de 10% de l'électricité mondiale. Autant dire que les...