Analyser le potentiel SEO d’une page web comme un « expert »

On parle souvent de fondamentaux en référencement, de toutes ces choses immuables et incontournables qu’aucun éditeur de site n’est censé ignorer. Du contenu frais et unique, 1 produit = 1 url, balises title… Mais là n’est pas le sujet. L’idée est d’étudier la valeur d’une page ou plutôt d’une URL, en faisant abstraction de son contenu. Autrement dit, une visIon plus algorithmique, et plus proche de l’interprétation moteur.
Sans pousser jusqu’à l’ingénierie inversée, un "expert" en référencement doit nécessairement appuyer son analyse sur un grand nombre de données, fiables si possible, et savoir les traiter, pour s’approcher au maximum de la vision moteur.

Autant vous le dire de suite, ce billet est sans réel fil conducteur, sûrement parce que le SEO ne suit pas un processus bien défini et linéaire. D’ailleurs le chois du titre aurait très bien pu être :
Googlebot

  • Excel, l’outil power user du SEO
  • Etes-vous réellement un « expert en référencement » ?
  • La nécessaire optimisation du crawl
  • De l’importance d’avoir un bon crawler
  • Tirez le meilleur parti de vos pages de destination
  • Les meilleurs indicateurs de popularité
  • Qu’est-ce qu’il ne faut pas faire pour optimiser la longue traîne… etc.

Je recoupe, tu recoupes, il recoupe, nous recoupons…

Dans le référencement moderne, tout est affaire de recoupement. La force des algorithmes de Google, c’est le recoupement. La force du SEO doit être également le recoupement. J’insiste. Quant on prétend expertiser des pages web, dire si elles sont aptes à ranker ou pas, il est nécessaire de croiser plusieurs données, issues de sources externes comme internes… et les plus fiables possible tant qu’à faire !

Commencer par repérer les pages cibles avec les liens entrants

J’en ai longuement parlé dans mon billet sur le maillage interne. Il a un rôle prépondérant dans l’apport en popularité d’une page, et la distribution du « jus » en interne. Il est nécessaire d’avoir un bon crawler comme Screaming Frog SEO Spyder pour récolter (entre autres) le nombre de liens entrants pour chaque URL.
Screaming Frog
Mais attention, ce n’est pas tout ! Ce que collecte votre crawler n’est pas forcément fidèle à ce que voit le GoogleBot. Direction Google Webmaster Tools dans Trafic de recherche > Liens internes pour comparer le classement des pages les plus linkées selon Google avec celui de votre crawler. Si la mise en comparaison des deux sources de données laisse apparaître de grandes disparités, c’est qu’il y a probablement des facteurs ralentissant vois bloquants quelque part.

Comparer les données avec Excel, l’outil indispensable de tout bon SEO

Voici la procédure qui vous permettra de comparer 2 classements d’URLs sous Excel.

  1. Exportez la liste des URLs depuis votre crawler vers Excel, le tout trié par ordre décroissant en fonction du nombre de liens entrants.
  2. Supprimer toutes les colonnes inutiles. Pour faire épuré, virez tout pour ne laisser que la colonne des URLs. Même le nombre de liens n’a pas vraiment d’importance, l’idée étant seulement de mesurer les écarts entre 2 sources.
  3. Sur Google Webmaster Tools (GWT), dans Trafic de recherche > Liens internes, télécharger au format csv le tableau.
  4. Ouvrir le fichier csv avec Excel, en prenant soins d’indiquer que les valeurs sont délimitées par des virgules. Si vous avez des soucis pour ouvrir le fichier correctement, ouvrez au préalable le csv avec un éditeur de texte genre Notepad++ pour le convertir en UTF8, avant de le ré-ouvrir avec Excel.
  5. Débrouillez-vous (là j’ai un peu la flemme désolé) pour ajouter par concaténation http://www.votre-domaine.fr devant les URLs, afin de « matcher » avec celles récoltées par votre crawler
  6. Par copier coller, juxtaposer les URLs provenant de GWT (colonne B), à côté de celles récoltées par votre crawler (colonne A).
  7. Dans la colonne C, nous allons maintenant afficher les écarts de positions des URLs B (GWT) par rapport à A (Crawler perso). Supposant que vous ayez laissé les titres de colonnes sur la première ligne, mettez la formule suivante en C2 : =SIERREUR(EQUIV(B2;$A$1:$A$13;0)-LIGNE();"n/a") puis étendre par incrémentation la formule à toute la colonne.

Vous devriez avoir quelque chose qui ressemble à ce tableau :

Comparaison avec Excel

Tout le travail consistera ensuite à analyser les écarts, et le volume de « n/a » qui peut être l’indicateur d’un véritable problème lié au crawl et à l’indexation.

Bien sûr je cite Excel, mais vous devriez très bien vous en sortir avec un autre tableur comme les spreadsheets sur Google Drive, ou encore Open Office.

Vous voulez vraiment jouer aux experts ? Analysez les logs Apache et la fréquence du crawl du GoogleBot !

L’analyse du crawl du Googlebot, souvent ignorée par les SEO, est pourtant une source cruciale d’informations pour deviner comment Google apprécie les pages d’un site. Quoi de plus élémentaire chez un référenceur/SEO que d’essayer de se mettre à la place du célèbre moteur de recherche pour percevoir les faiblesses d’un site, et anticiper les mouvements dans les SERPs ? Peu de prestataires le font, rebutés pour certains par la cuisine nécessaire pour extraire les datas, et pour d’autres préférant s’en tenir uniquement au PageRank pour évaluer la popularité des pages d’un site… Bref, à chacun son degré d’expertise.

Les logs Apache sont certainement les données les plus fiables et les plus précises, si ce n’est qu’un travail des données brutes doit être effectué pour obtenir des résultats lisibles et exploitables. La fréquence du passage du GoogleBot permet d’apprécier l’appétence que Google peut avoir pour les pages d’un site. Certes, le PageRank influe sur la fréquence : plus une page a un PR élevé, plus la fréquence sera élevée (économie de ressources pour Google). Néanmoins pour analyser un site comportant des dizaines de milliers de pages dont la grande majorité sont des PR0/1, difficile de se contenter de ce seul indice pour évaluer le potentiel SEO des pages.

Ceux qui maîtrisent les commandes grep, cat, less etc. sous linux n’auront aucun mal à récupérer les traces laissées par le GoogleBot, comme abordé dans mon précédent billet.

Une page/URL dont la fréquence du crawl diminue, quelque soit son PR, verra très certainement son classement diminuer dans les résultats de recherche. De même, une fréquence > à 2 semaines pour une URL est généralement un signal de dépréciation de la part de Google.

La nécessaire optimisation du crawl

Analyser les passages du GoogleBot c’est bien, mais sur un site optimisé pour le crawl, c’est encore mieux !
L’analyse de l’activité du GoogleBot ne peut être réellement pertinente qu’à partir du moment ou le socle technique du site est entièrement optimisé pour le crawl. Il est fondamental d’éradiquer/rediriger les URLs qui dupliquent le contenu (DUST), de supprimer les erreurs 404, d’assurer une bonne gestion de la pagination, de réduire la latence, d’optimiser la structure… Bref, faciliter le travail à Google pour que le crawl soit le moins énergivore possible, et lui envoyer un bon signal. N’oublions jamais que l’énergie est le talon d’Achille de Google : plus votre site lui demandera des ressources pour le cartographier, moins bons seront les retours.

Autres données et indices pour évaluer les pages…

Beaucoup d’éléments externes peuvent être utilisés comme indicateurs de la popularité d’une page.
Passons vite fait sur le PR qui reste un indice plus ou moins valable selon les cas, mais son rafraîchissement devenu très rare et son manque de granularité n’apporte pas grand chose dans le cadre d’une analyse pointue.

Les indices CitationFlow et TrustFlow de MajesticSEO sont très vite devenus des références en la matière, surtout le TrustFlow. L’ACrank, plus basique, peut également être utilisé pour évaluer les principales pages de destination d’un site. De même du côté d’Opensiteexplorer.org, l’indice « Page Authority » est un très bon indicateur. Prenez ceux que vous voulez, mais prenez-en au moins un !

… Sans oublier la caution sociale

On ne peut plus l’ignorer, le facteur social est de plus en plus pris en compte par les moteurs… Enfin je dis « les moteurs » pour éviter de faire des répétitions avec « Google » ;)

Personnellement, toutes mes analyses passent par des tableaux Excel. Couplé avec le plugin SeoTools for Excel (gratuit) on obtient un outil très performant qu’aucun SEO ne peut bouder. Et c’est justement grâce à ce plugin que je vais pouvoir collecter les « votes » issus des réseaux sociaux comme les likes, +1 et tweets.

Naturellement, les pages recevant le plus de votes ont théoriquement un meilleur potentiel pour se positionner, et toujours en théorie, la popularité sociale des pages doit être en adéquation avec leur nombre de liens entrants… Mais dans la réalité, c’est rarement le cas.

Le fait de récupérer ces données dans un tableur, et ce pour chaque URLs (au moins les plus importantes), permet d’apprécier d’éventuelles disparités ou anomalies : uniquement des votes sur la homepage ? Mauvais signal. Nombre de votes identiques sur chaque page de destination ? Mauvais signal également.

SeoTools for Excel 2010

Exemple de tableau avec le plugin SeoTools for Excel

Autres données importantes

On a vu précédemment le linking interne. Le nombre de liens internes est un bon indicateur, mais on peut également collecter le nombre de liens sortants, et le nombre de backlinks. Votre crawler devra également vous fournir le niveau de profondeur de chaque page : forcément, si une page est à 4 clics de la homepage, elle aura un sérieux handicap !

Les données de Google Analytics sont également importantes pour déterminer si certaines pages ont des problèmes. SeoTools for Excel, encore lui, permet justement de récupérer (après autorisation) automatiquement certaines données comme le taux de rebond, le nombre de visite etc. pour chaque pages. Une page supposée stratégique ne recevant pas de trafic « naturel » ou avec un fort taux de rebond n’est pas forcément bon signe. Mais je dois avouer que lors de mes audits, je n’accorde pas énormément d’importance à ces données. Le taux de rebond par exemple (à ne pas confondre avec le taux de retour moteur) est à interpréter avec beaucoup de précaution. Sans recoupement et sans comparaison avec d’autres pages et données, il ne veut pas dire grand chose.

SeoTools avec Google analytics

SeoTools for Excel, et le module Google Analytics

Définir ses propres KPI

Vous avez maintenant un beau tableau Excel, avec pour chaque URL toutes les informations nécessaires à l’évaluation des pages. Mais si le site à analyser est de grande envergure, avec des milliers de pages, il vous sera difficile de discerner les bonnes des mauvaises URLs. Le KPI (Key Performance Indicator) n’est autre qu’une formule appliquée aux valeurs récoltées, pour voir et trier tous les résultats en fonction de vos critères.

Prenons un exemple :
Dans un tableau Excel (ou spreadsheet), les cellules de la colonne KPI renverront « Bon » si :
Définir des KPI

  • le niveau (level) est < à 2,
  • le nombre de liens internes (inlinks) est > à 200,
  • le nombre de liens sortants (outlinks) est < à 20,
  • le trustflow est > à 20.

Dans le cas contraire, la valeur KPI sera « Mauvais ».

Plus concrètement, supposons que les colonnes de notre tableau soit les suivantes :
A:url | B:level | C:inlinks | D:outlinks | E:backlinks | F:trustflow | G:KPI
La formule à appliquer en G2 sera la suivante :
=SI(ET(B2<2;C2>200;D2<20;F2>20); "Bon"; "Mauvais")
Il ne vous reste plus qu’à étendre la formule à toute la colonne G, et au besoin, trier/filtrer cette dernière pour ne faire apparaître que les « bonnes » URLs.

Cette formule et ces valeurs sont bien sûr données à titre d’exemple. N’allez pas croire qu’il faille impérativement un minimum de 200 liens entrants pour qu’une page de destination puisse ranker ! A vous (SEO équipé d’une faculté d’analyse) de placer le curseur où il faut en fonction du projet analysé.

J’aurais voulu vous parler dans ce billet de tableaux croisés dynamiques et de leur utilisation dans un contexte SEO, mais finalement ce sera pour un prochain sujet.

Vous pouvez avoir un lien en DoFollow si :
  • Vous ne faites pas de lien optimisé (brand ok).
  • Votre contribution apporte de l'eau au moulin et ne se contente pas de remercier (même si c'est toujours appréciable).
  • Vous ne donnez pas l'impression de ne pas avoir lu l'article.
  • Votre site doit graviter dans l'univers du SEO / web marketing / IT.
  • Nouveau : Se suivre mutuellement sur Twitter (oui ça fait copinage, et j'assume !).
Le but n'étant pas d'être plus sévère, mais au contraire plus équitable et... naturel. N'oubliez-pas : moins de spamco = meilleur jus !

8 réflexions au sujet de « Analyser le potentiel SEO d’une page web comme un « expert » »

  • Pour la part, plutôt que de compter le nombre brut de liens entrants (tous ne se valant pas), je préfère regarder la valeur globale des flux CF et TF entrant de l’ensemble des BL, ainsi qu’ancre par ancre.
    Je regarde aussi que le TrustFlow de l’ancre correspondant au mot-clé principal de la page soit dans les clous par rapport au CitationFlow.

  • Tellement de données et de tableaux, ça a un côté hypnotique pour moi…
    Sauf que ça me donne envie d’appeler mon dev à 3 heures du matin pour tout vérifier.
    Et comme un bon référenceur SEO est à 50% rédacteur et à 50% technicien, va falloir être 2 ou se farcir Excell jusqu’à plus soif. Allez santé et dodo…

  • Super article, comme d’hab.
    Est ce que tu penses que les données dans GWT sont totalement fiables et à jour au niveau maillage interne?

    Idem concernant screaming Frog?
    J’ai constaté que Xenu et linkExaminer comptent les « in links » de manière erronées à partir de plusieurs dizaines de milliers de pages.

  • @Jeromeweb : GWT ne peut pas être aussi fiable et exhaustif en matière de « cartographie » du maillage interne qu’un vrai crawler qui n’aura d’autre but que de parcourir l’intégralité du site de fond en comble. As-tu déjà utilisé Screaming Frog ?

  • J’ai déjà utilisé Screaming Frog en version gratuite donc limité en crawl pour des gros sites (j’ai un site qui fait plus de 100 000 pages).
    Xenu et link analyzer arrivent à tout parcourir mais au bout d’un moment le nombre de liens internes qui est affiché n’est plus correcte. Je te parle de crawlers gratuits donc il ne faut pas trop en demander non plus!

  • Comment passer à côté d’un article comme ça … J’arrive un peu tard mais il n’est jamais trop tard. Et je ne comprend pas qu’il n’y est pas plus de commentaires sur ce billet. Un vrai plaisir de voir autant de possibilité parfois oublié.

    C’est là que je me dis que je me préoccupe beaucoup trop du contenu, du balisage, de la structure, … Je vais essayer de tester tout cela au plus vite pour trouver des raisons à certains problèmes SEO.

    Bon il est 00h02, maintenant je passe à ton article sur la recherche et l’analyse de MC ;)

    A bientôt @VictorLerat

  • J’ai pu tester Screaming Frog SEO Spyder comme tu nous l’a indiqué dans ton article, ce n’était que la version gratuite mais il faut dire qu’il est assez efficace. Après, comme le dit JeromeWeb, sur de très gros sites il faudrait se tourner vers la version payante pour avoir des résultats efficaces. Cela ne reste que mon avis…
    Merci beaucoup pour ces conseils!
    A bientôt!

  • Personnellement j’arrive très tard par rapport à la date de la publication de ton article, mais je pense que c’est encore d’actualité, peut-être même plus ! Merci beaucoup pour la qualité de l’article et pour le partage des astuces. Je vais me servir de tes recommandations et formules pour mes prochains tableaux de bord Excel.

Les commentaires sont fermés.