Les bonnes pratiques pour résoudre les pages non indexées
Les moteurs de recherche doivent pouvoir trouver (découverte) et parcourir (exploration) une page afin de l’indexer. Pour autant, cela ne signifie pas systématiquement qu’elle sera indexée. On parle alors de pages « explorées, actuellement non indexées ».
Mais la découverte et l’exploration peuvent être empêchées par plusieurs choses : URL bloquée, redirection, erreur de serveur, page introuvable, etc. En revanche, lorsque la page a été explorée sans être indexée, cela signifie que le moteur de recherche a bien découvert et parcouru la page, mais qu’il a décidé de ne pas l’indexer. Dans ce cas de figure, il s’agit généralement d’un problème lié à la qualité du contenu. Bonne nouvelle néanmoins, les moteurs de recherche proposent des outils gratuits pour détecter ces soucis d’indexation.
Voici donc les solutions à votre disposition pour vos pages non indexées. Bien entendu, Google étant le moteur de recherche le plus utilisé au monde, nous nous intéresserons davantage à celui-ci et à son outil, la Google Search Console.
Indexation des pages d’un site Web : définition
L’indexation des pages d’un site Web signifie que les pages sont visibles dans les résultats de recherche (SERP, Search Engine Result Page) des moteurs de recherche, à commencer par Google. Autrement dit, les pages non indexées n’apparaissent pas dans les résultats de recherche. Cela implique que l’utilisateur ne peut pas y avoir accès par ce biais. Si un grand nombre de pages est concerné, vous imaginez bien que la non-indexation peut vite devenir un problème.
En effet, l’indexation se fait au niveau de chaque page du site et non au niveau du site en lui-même. Aussi, le contenu des pages non indexées ne peut pas contribuer à l’autorité globale et à la pertinence thématique du site Web.
Pour autant, l’indexation ne garantit pas forcément du trafic, car une page peut être indexée, mais mal référencée. Elle est alors moins visible et attire moins de trafic.
Il est, dans tous les cas, important de résoudre ce problème d’indexation. Mais encore faut-il en identifier la cause !
Les raisons de la non-indexation et les solutions pour les pages non indexées
Plusieurs raisons peuvent expliquer la non-indexation des pages d’un site Web. Il peut s’agir d’une erreur ou d’un problème sur la page, ou, comme nous l’avons vu, d’un choix de Google de ne pas indexer la ou les pages.
Ce qui est sûr, c’est que ces raisons doivent être identifiées afin d’apporter les bonnes solutions aux pages non indexées.
Les « erreurs » et les solutions d’indexation des pages
Cette liste d’erreurs est non exhaustive, car d’autres causes peuvent exister. Cependant, toutes les « problématiques » présentées ici n’en sont pas systématiquement s’il s’agit d’une consigne volontaire.
Par exemple, toutes les pages d’un site Web ne nécessitent pas toujours d’être indexées. Dans une telle situation, il est donc normal que l’URL soit bloquée par une balise « noindex ».
> URL bloquée par le fichier robots.txt
La mention d’une URL bloquée par le fichier robots.txt indique qu’il existe une règle dans le fichier en question empêchant les moteurs de recherche d’accéder à la page concernée. Autrement dit, cette page a été bloquée par le fichier robots.txt de votre site (page en « disallow »).
La solution : Supprimez le bloc robots.txt de la page concernée. Pour vérifier le fichier, saisissez l’adresse de votre site suivie de « /robots.txt », comme dans cet exemple : https://www.example.com/robots.txt
Attention, Google a précisé que cette directive n’est, en réalité, pas prise en charge. La meilleure manière d’exclure une page des résultats de recherche reste donc d’utiliser uniquement une balise « noindex ».
> Les erreurs d’indexation liées à des redirections
Les erreurs liées à des redirections peuvent être de plusieurs natures :
- une chaîne de redirection trop longue ;
- une boucle de redirection (l’un des maillons de la chaîne de redirection est redirigé vers une URL qui fait déjà partie de la chaîne) ;
- une URL de redirection ayant finalement dépassé la longueur d’URL maximale ;
- une URL incorrecte ou vide dans la chaîne de redirection.
La solution : Il suffit de corriger la redirection en conséquence, par exemple, en limitant la taille de la chaîne de redirection. Des outils en ligne vous permettent de vérifier les redirections d’une page.
> Une URL marquée « noindex »
La mention d’une URL marquée « noindex » indique la présence d’une consigne de non-indexation de la page sur le site. Cette fonction est justement utilisée pour bloquer des pages que l’on ne souhaite pas indexer.
Il s’agit d’une erreur et votre page devrait être indexée ? Sachez que toutes les plateformes de gestion de sites (WordPress, Shopify, etc.) permettent de résoudre le problème directement sur la page concernée. Par exemple (image ci-dessous), il faut aller dans « Avancé » en bas de la page concernée sur WordPress.
> Une erreur de type 401 ou 403
Une page peut être bloquée en raison d’une demande non autorisée (erreur 401) ou d’une interdiction d’accès (erreur 403). Cela signifie que le robot d’indexation ne peut pas accéder à la page, car des identifiants d’accès sont demandés (401) ou l’accès à la ressource demandée est limité (403).
Ici, nous vous recommandons de tester les URL vous-même pour vous assurer que vous recevez une demande d’autorisation. Ensuite, vérifiez l’erreur en accédant à la page concernée en navigation privée. Si vous pouvez accéder aux URL sans y être autorisé, cela peut signifie peut-être qu’un administrateur du site a bloqué Google, tout en essayant de protéger le site contre les robots d’exploration.
La solution : Supprimez les identifiants d’accès ou autorisez Googlebot à accéder à vos pages en validant son identité.
> Une erreur de type 404
Une erreur 404 indique que la page concernée est introuvable alors que Google a trouvé son URL en explorant votre site ou d’autres sites Web.
Cela peut s’expliquer par le fait que la page n’existe plus, mais que les liens vers cette page demeurent. Si la page existe bel et bien, il peut s’agir d’une erreur dans le lien qui est censé renvoyer à cette page.
La solution : Corrigez le lien si tel est l’erreur. Si la page n’existe plus, faites une redirection 301 (permanente) vers une autre page traitant de la même thématique. En effet, il n’est pas possible de demander à Google d’ignorer une erreur 404. De plus, une erreur 404 pénalise le référencement de votre site Web.
> Une erreur de type 500
L’erreur 500 indique que le serveur du site a renvoyé un message « site temporairement inaccessible » lorsque la page a été demandée.
Bien souvent, cette erreur est causée par la maintenance du serveur ou un problème technique qui n’est pas directement lié aux processus de votre site. Elle est donc temporaire et il n’y a rien à faire.
Toutefois, elle peut parfois être la conséquence d’une action que vous avez réalisée.
La solution : Si l’erreur 500 persiste dans le temps, supprimez les nouveaux plugins, thèmes, applications ou extensions que vous venez d’installer, surtout si l’erreur 500 est apparue après avoir intégré un nouveau composant dans votre site. Assurez-vous aussi de vider le cache du navigateur avant de recharger la page pour vérifier si le problème est résolu.
> La mention « autre page avec une balise canonique correcte »
La référence « autre page avec une balise canonique correcte » indique que la page est marquée comme une version alternative d’une autre page et qu’elle renvoie donc vers ladite source.
Cette situation est normale, puisque c’est précisément le rôle de la balise canonique. Elle est notamment utilisée pour les e-commerces, lorsqu’ils proposent une page par variante d’un produit (par exemple, un page pour un pull bleu et une page pour le même pull, mais de couleur rouge). Cela permet d’avoir du contenu dupliqué ou presque similaire sans être pénalisé.
Le principe est le même pour une page conçue pour ordinateur et une page AMP conçue pour la navigation mobile. En résumé, aucune action n’est à réaliser !
> Les erreurs liées à une page en double
Deux types de messages peuvent apparaître lorsqu’un site Web contient des pages en double :
- un problème de page en double sans URL canonique sélectionnée par l’utilisateur : cette page est un double d’une autre page et Google a choisi l’autre page comme URL canonique (page préférée) puisque vous n’avez pas défini de balise canonique ;
- un problème de page en double pour laquelle Google a choisi une autre URL canonique que celle de l’utilisateur : Google a estimé qu’une autre URL est une version canonique plus appropriée que celle choisie par l’utilisateur.
La solution : Il est recommandé de toujours définir une URL canonique pour chaque page que vous publiez afin d’éviter que la balise canonique soit générée automatiquement et de manière incorrecte. Ce champ est généralement disponible en bas de page dans les options avancées.
Vous paniquez en vous demandant comment vous allez faire pour détecter tous ces messages ? Pas de stress, comme nous le disions en introduction, des outils existent pour vous y aider, comme la Google Search Console. Ces derniers vous indiquent tous les éventuels problèmes, comme sur l’image ci-dessous (issue de la Google Search Console).
Les pages explorées ou détectées, mais non indexées
Comme vous l’avez constaté sur l’image précédente, il est possible que les pages de votre site aient été détectées ou explorées, tout en étant non indexées.
> Les pages détectées, actuellement non indexées
Quand votre page comporte le statut « détectée, actuellement non indexée », cela signifie que Google a bien vu la page, mais qu’il n’a pas jugé pertinent de l’explorer et de l’indexer sur le moment.
Google précise dans sa documentation sur les pages non indexées que, généralement, l’exploration a été reportée, car votre site risquait d’être surchargé.
Faut-il retravailler les pages concernées ? Oui et non. Ce n’est pas nécessaire si :
- le nombre de pages concernées reste faible (inférieur à 10 %) ;
- les pages sont finalement indexées avec le temps ;
- les URL concernent des pages qui n’ont pas besoin d’être explorées ou indexées.
En principe, Google repassera ultérieurement sur la page pour l’explorer et l’indexer, mais ce n’est pas systématique. En effet, Google ne peut pas explorer et indexer les milliards de pages existantes. Les robots d’indexation priorisent les pages à parcourir. Pour cela, ils se basent sur certaines règles de qualité à respecter.
Ainsi, un site qui propose un contenu de faible qualité ne sera pas prioritaire. Les pages détectées, mais non explorées peuvent alors ne jamais être indexées.
Néanmoins, dans un premier temps, vous pouvez demander une indexation manuelle de la page en question via la Google Search Console.
> Les pages explorées, actuellement non indexées
Dans le cas d’une page « explorée, actuellement non indexée », il s’agit de pages que Google a découvertes et explorées, mais qu’il ne souhaite pas indexer. Comme nous l’évoquions, Google estime que ces pages n’ont pas une qualité suffisante ou ne sont pas assez pertinentes. Il considère qu'il n'a aucun intérêt à les indexer.
Dans les deux cas (pages détectées et pages explorées), il est nécessaire de revoir la qualité de chaque page pour remédier au problème. Nous vous expliquons comment dans ce qui suit.
Les solutions aux pages non indexées, mais détectées ou explorées
Si la non-indexation provient d’un manque de qualité et de pertinence de la page, quelques solutions peuvent être mises en œuvre. Rappelons que Google s’appuie sur pas moins de 200 critères de référencement.
Sans rentrer dans le détail, voici les points à vérifier en priorité.
Vérifier manuellement la non-indexation des pages
Il arrive que la Google Search Console ou d’autres outils indiquent que la page n’est pas référencée alors qu’elle l’est en réalité.
Aussi, il est préférable de faire une vérification manuelle avant de retravailler vos pages. Pour cela, utiliser la commande « site: » suivie de l’URL de votre page pour vérifier si celle-ci apparaît dans l’index, comme dans l’exemple ci-dessous :
Améliorer la qualité du contenu
Gardez en tête que Google ne favorise pas l’indexation des pages dont le contenu existe déjà sur d’autres pages du même site ou lorsque le contenu est trop semblable à ce qui existe déjà sur le Web.
Vous devez donc vous assurer que votre page propose une valeur ajoutée aux utilisateurs : contenu original, nouvelles informations non traitées par vos concurrents, plus de détails, d’exemples, etc. Le contenu doit être de haute qualité, tant sur le fond que sur la forme, et ce, pour démontrer votre expertise. La rédaction doit aussi être soignée.
Assurez-vous également que le contenu de vos pages non indexées est pertinent et qu’il réponde bien aux intentions de recherches des utilisateurs.
Vérifier le contenu dupliqué ou quasi similaire sur le site
Nous l’avons déjà dit, Google n’aime pas le contenu dupliqué ou presque identique. Vous pouvez ainsi utiliser un outil qui analyse vos contenus pour faire ressortir les pages dupliquées (en totalité ou selon un certain pourcentage), comme Screaming Frog.
Si cette duplication est nécessaire (page produit d’un e-commerce, par exemple), renseignez bien les balises canoniques pour envoyer les utilisateurs vers la page de référence. Et si le contenu dupliqué n’est pas nécessaire, supprimez les doublons (la page non indexée de préférence).
De même, au lieu de faire une nouvelle page sur un sujet déjà existant sur le site, mais peut-être daté, mettez plutôt à jour ce dernier. C’est une pratique nettement préférable, d’autant plus que Google adore les mises à jour de contenu.
Revoir le maillage interne des pages du site
Google ne peut pas indexer une page si aucune autre page de votre site ne fait un lien vers celle-ci. On parle alors de page orpheline. En effet, le Googlebot se déplace de lien en lien. Il est donc nécessaire de revoir votre maillage interne pour vous assurer qu’il y a bien un lien d’accès. Si ce n’est pas le cas, faites plusieurs liens sur des pages connexes. Pensez aussi à bien varier les ancres (texte du lien).
Dans la même logique, assurez-vous que votre site Web présente une structure claire avec une navigation appropriée. Pour cela, les contenus sont à lier à partir des pages importantes de votre site. En procédant ainsi, vous signalez à Google que le contenu est important.
Demander une nouvelle indexation via la Google Search Console
Lorsque vous aurez terminé toutes les vérifications et les ajustements nécessaires, vous pourrez soumettre vos pages à l’indexation. Pour demander une nouvelle indexation dans la Google Search Console, rendez-vous dans l’outil d’inspection d’URL.
La Google Search Console pour vérifier l’indexation des pages
Si vous cherchez des solutions pour vos pages non indexées, c’est, a priori, que vous savez comment les détecter. Ce point concerne donc les personnes qui veulent vérifier d’éventuels problèmes d’indexation et qui ne savent pas comment faire.
Car oui, il existe des outils gratuits pour détecter des pages non indexées. Le mieux reste toutefois d’utiliser l’outil conçu par Google, la Search Console. Il vous permet de savoir si vos pages sont indexées ou non, et, surtout, d’en connaître les raisons.
Pour avoir une vue d’ensemble, il faut aller dans le menu « Page » de la rubrique « Indexation » :
Vous obtenez la vue d’ensemble du nombre de pages indexées et non indexées. Les informations relatives aux raisons de la non-indexation se trouvent juste en dessous :
Pour identifier les pages concernées, il vous suffit de cliquer sur le problème d’indexation.
À partir de là, vous pourrez procéder aux corrections nécessaires, comme indiqué tout au long de notre article.
Mais attention, toutes les « erreurs » d’indexation ne sont pas à corriger. C’est par exemple le cas des produits en rupture de stock chez un e-commerce. Google a choisi de désindexer la page pour améliorer l’expérience utilisateur. Aussi, il ne sert à rien de perdre votre temps à faire réindexer cette page si vous n’avez toujours pas de stock.
Pour conclure, précisons que l’indexation d’une page ne signifie pas qu’elle sera toujours indexée. Comme nous l’avons vu, il existe différentes raisons pour qu’une page ne soit pas ou plus indexée. Aussi, il est important de vérifier régulièrement le nombre de pages non indexées et les causes de cette non-indexation. Certains motifs méritent en effet une attention particulière, comme les erreurs 404 (page introuvable) qui nécessitent une redirection 301. En revanche, les pages « noindex » sont généralement le fait d’une action volontaire, même si une erreur humaine est possible.
Crédit photo : Christian Horz