Le problème, c’est qu’une refonte de site est toujours un projet complexe. Les gains potentiels en termes de branding et d’attractivité commerciale sont importants. Mais les risques de pertes (au moins à court terme) le sont tout autant.
Et l’enjeu le plus sensible réside dans l’indexation et le référencement sur Google. On vous a déjà livré sur ce blog notre méthode en 16 points pour garder votre SEO intact au moment de refaire votre site. Mais, avant même de se poser cette question, beaucoup d’entreprises se retrouvent confrontées à une indexation non désirée de leur site web en construction.
Vous savez, lorsque vous cliquez sur votre site dans les résultats de recherche et que vous vous rendez compte que la version indexée sur Google est en fait votre version de travail, qui était censée ne pas sortir de votre back office WordPress…
Cela n’aurait pas dû arriver, mais le fait est que c’est arrivé. Au-delà de l’impact négatif que cela peut avoir sur votre référencement naturel, c’est votre image de marque qui risque d’en prendre un coup. Alors comment y remédier ?
Voici les bonnes pratiques à mettre en œuvre pour bloquer l’indexation d’un site en construction :
Sommaire
Utilité et inconvénients des sites de « pré-prod »
Quand on entreprend de remodeler son site internet, on préfère généralement cacher les travaux au public tant qu’ils ne sont pas terminés. Généralement, on met alors en place un site de pré-production, dont l’accès privé doit permettre de travailler dans l’ombre sur une nouvelle maquette.
Une telle démarche est utile à plusieurs points de vue, notamment pour :
- Remodeler des articles de blog et autres contenus sans indexer leur version de travail sur les moteurs de recherche et donc sans risquer d’impacter involontairement le SEO du site.
- Effectuer des tests de navigabilité en conditions réelles suite à l’introduction de nouveaux éléments de code ou à la modification de l’organisation des pages.
- Mettre à jour le maillage des liens internes et externes (avec redirections d’URL si nécessaire) avant la mise en ligne du nouveau site web.
Mais passer par un site de « pré-prod » augmente aussi les sources de problèmes potentiels. C’est en particulier le cas par rapport aux compétences techniques qui sont nécessaires pour héberger le site en construction sur un domaine ou un sous-domaine réservé et inaccessible au public.
Et cela introduit bien un risque pour votre référencement naturel, précisément celui qui nous intéresse dans cet article : la possibilité de voir votre version de travail indexée par Google contre votre volonté.
Cela concerne bien sûr tout contenu de votre site internet, qui pourrait être référencé alors qu’il n’est pas abouti. Mais cela concerne aussi toute balise « meta » placée dans le code d’une page, qui pourrait faire apparaître dans les résultats d’un moteur de recherche des informations mal mises en forme, voire inappropriées.
Alors, pour éviter cela, mieux vaut vous assurer d’emblée que vous avez fait ce qu’il fallait pour que Google n’indexe pas votre site en construction.
Comment empêcher Google d’indexer un site en construction ?
Vous l’avez compris, le meilleur moyen pour ne pas avoir à désindexer un site en construction, c’est de faire ce qu’il faut en amont pour qu’il ne soit pas indexé par les moteurs de recherche. Il y a essentiellement 4 méthodes pour cela, dont les 2 premières figurent dans les guidelines de Google.
Directive du fichier robots.txt
Le fichier robots.txt est la solution prioritaire pour bloquer l’accès des robots de crawl au contenu de votre site. À partir de ce fichier, vous pouvez demander à Googlebot de ne pas indexer les pages de votre site, mais vous pouvez surtout le demander à tous les robots via une directive « disallow » adressée à tout « user agent » :
Problème : les moteurs de recherches ne lisent pas tout le temps le fichier robots.txt. Pour être plus prudent, il vaut donc mieux coupler cette méthode avec un deuxième outil.
Balise meta « noindex »
Cette balise meta « noindex » doit être placée dans la section <head> de toutes les pages de votre site qui ne doivent pas être indexées. Ainsi, si un robot de référencement venait à franchir la barrière du fichier robots.txt, il stopperait son crawl devant cette balise.
Problème : selon la taille de votre site de préprod, il est parfois laborieux d’ajouter une balise dans le code html de chaque page, même si des outils permettent de le faire de manière plus ou moins automatisée.
Pour ceux qui ne voudraient pas s’embêter avec cela, il existe donc une méthode plus radicale.
Mot de passe dans le htaccess
Beaucoup de propriétaires de site connaissent le fichier htaccess et en ont ajouté un sur leur serveur. Il est notamment utile pour mettre en place des redirections d’URL. Mais plus rares sont ceux qui utilisent ce fichier pour créer un mot de passe d’accès à leur site.
C’est pourtant une solution efficace pour empêcher tout utilisateur ne disposant pas d’un identifiant autorisé de naviguer sur le site. Pour cela, il suffit d’utiliser par exemple les lignes de code suivantes :
Cela permet de renseigner le chemin vers un fichier htpasswd, qui, lui, contiendra les identifiants autorisés à naviguer sur le site et leurs mots de passe respectifs.
White list
Dernière solution pour bloquer l’indexation d’un site en construction, qui est sûrement la plus compliquée à mettre en place : télécharger une « white list » sur votre serveur. Cela permet de restreindre l’accès aux pages de votre site à une liste d’adresses IP spécifiques.
A priori, si vous avez déjà mis en place les 3 méthodes précédentes, celle-ci n’aura pas d’intérêt pour vous. Mais, elle a le mérite d’exister et peut se justifier dans certaines configurations.
Comment demander à Google de désindexer un site en construction
Vous arrivez trop tard sur cet article de blog pour bloquer l’indexation de votre site en développement ? Ou bien, malgré vos efforts pour appliquer les bonnes pratiques, un spider de Google s’est quand même frayé un chemin jusqu’aux pages de votre site et les a indexées dans les résultats de recherche ? Ce n’est pas une bonne nouvelle. Cela dit, la situation n’est pas non plus sans issue…
Cela vous paraîtra peut-être contre-intuitif, mais, la première chose à faire pour désindexer votre site, c’est d’enlever les barrières que vous avez méthodiquement mises en place pour empêcher les robots d’indexer vos pages. Du moins, les barrières liées à la directive disallow du fichier robots.txt, à un éventuel mot de passe ou à une éventuelle white list d’adresses IP.
Le but ? Faciliter autant que possible l’exploration de votre site par les spider d’indexation de Google.
Et pour cause, la seule consigne que vous devez maintenir à leur égard est celle de la balise meta « noindex » dans la section <head> de vos pages. En clair, ouvrez grand votre site pour que Googlebot l’explore dans sa totalité et prenne connaissance du fait qu’il doit le désindexer.
Une fois que c’est fait, la suite se passe au niveau de la Search Console. Si vous n’y avez pas encore créé de propriété pour votre site en construction (ce qui est fort probable), commencez par le faire, puis transmettez à Google un fichier sitemap exhaustif. Cela facilitera l’opération « exploration ».
Ensuite, toujours sur la Search Console, vous pouvez demander directement à supprimer les URL qui n’auraient jamais dû être indexées. Si vous avez utilisé un sous-domaine de votre domaine principal pour héberger temporairement votre site en construction, bonne nouvelle : vous pourrez demander à supprimer d’un bloc toutes les URL. Pour cela, cliquez simplement sur la fonctionnalité « supprimer toutes les URL avec ce préfixe » et utilisez le préfixe de votre sous-domaine.
Il ne vous reste alors plus qu’à attendre que ces URL disparaissent de votre Search Console pour remettre en place toutes les barrières recommandées pour bloquer l’indexation de votre site de préprod.