L’analyse des backlinks ou d’un maillage interne requiert inévitablement des outils adéquats. Il faut dans un premier temps collecter les données (crawl), qui seront ensuite analysées et interprétées. Il en existe beaucoup, gratuits ou payants, en SaaS ou en application… Les plus réputés sont sans doute majesticseo, opensiteexplorer, ahrefs, mais on trouve également des outils spécialisés dans le linking interne avec par exemple Screaming Frog SEO Spider, sans oublier le très prometteur Botify dont le potentiel va bien au-delà du crawl.
Tous ces outils ont un point commun : ils essayent de se rapprocher le plus possible de la « vision moteur », et de l’analyse (supposée) que peut en faire Google. Attribuer une valeur à un lien est souvent beaucoup plus complexe qu’on ne le croit. Chaque outil propose un ranking ou un indice de confiance qui lui est propre (MozRank, Alexa Rank, Ahrefs Rank etc), basé bien souvent sur le nombre de liens sortants et entrants, le PR de la page, et autres données facilement récupérables.
L’avancée la plus notable en la matière provient certainement de MajesticSEO avec l’introduction en mai 2012 des Flow Metrics®, à savoir le Trust flow et le Citation flow. Avant cela, nous avions pour habitude d’évaluer la qualité d’un lien (plus précisément la page émettrice) avec un note global de 1 à 10 basée essentiellement sur le volume de liens. C’est grossièrement le principe du PageRank de Google, et de l’ACrank chez MajesticSEO. Cette formule trouve vite ses limites pour évaluer la confiance à accorder à une page ou un domaine. Un PR4 avec 10000 liens peut être un site de confiance comme un site bien spammy.
MajesticSEO a donc splitté en 2 cette note pour une bien meilleure appréciation, avec d’un côté le Citation flow, version améliorée de l’ACrank, basé sur le nombre total de liens, la diversité des domaines et des IP. L’échelle va de 1 à 100 offrant une bien meilleure granularité. Couplé à cet indice de popularité, on trouve le Trust flow qui n’a trait qu’à l’indice de confiance diffusé de lien en lien. Plus le score est élevé (1 à 100), plus la page/site est digne de confiance.
Pour en savoir plus sur les flow metrics® de MajesticSEO :
http://blog.majesticseo.com/development/flow-metrics/ (EN)
http://blog.majesticseo.com/fr/fonctionnalites/flow-metrics-2/ (FR)
Ces données représentées graphiquement permettent d’avoir une lecture très rapide et surtout une bonne appréciation de la qualité du linking d’un site. Par exemple, un corpus de backlinks ayant un Trust flow très bas sera synonyme de liens trop spammy voir nocifs pour le SEO.
Le Trust flow est à prendre pour ce qu’il est : un indice théorique de confiance. Il n’apporte aucune garantie et peut s’avérer trompeur pour l’évaluation d’un domaine. Un site qui a subit les foudres de Google avec panda & pingouin, et donc clairement flaggué comme spam, peut très bien avoir un Trust flow correct et attractif.
Seulement voilà, si on veut proposer une analyse proche de celle des moteurs, il manque un facteur déterminant à ces outils pour évaluer pleinement la qualité d’un lien.
La brique manquante
Avant d’entrer dans le vif du sujet, je dois préciser que je n’ai pas essayé tous les outils disponibles sur le marché (trop chronophage, trop coûteux), encore moins ceux développés en agence et à usage interne et privé. Cette « brique manquante » existe peut-être chez un éditeur/développeur mais après plusieurs semaines de recherche, je n’ai strictement rien trouvé. Quant à moi, je n’ai pas les ressources pour développer mes propres outils, et n’ai aucune envie de garder jalousement cette réflexion pour moi. Bref j’y viens.
Si l’on s’en tient à l’analyse des outils de backlinks cités plus haut, un super lien provient d’une page sur un site bien trusté, avec très peu de liens sortants et surtout pas spammy. Sauf que Google accorde aussi beaucoup d’importance au contexte du lien, et là, aucun de ces outils n’y fait référence. Mais encore une fois, peut-être que la perle rare m’a échappée !
Oui Google fait le distingo entre le footer, un menu, une balise alt, une sidebar et le corps d’un (vrai) contenu. Il connaît sa géographie, et ce n’est un secret pour personne. Indéniablement un lien en footer dont le voisinage direct parle forex, rachat de crédit, coques iPhone, etc. n’aura pas la même valeur qu’un lien inséré dans un contexte riche en contenu, générant du trafic organique, et dont l’environnement sémantique match avec la page cible. C’est enfantin mais, à ma connaissance, aucun outil ne propose un tel niveau d’analyse.
Cette carence, je la perçois surtout pour l’analyse de la structure d’un site (maillage interne), le choix de l’emplacement, le volume, et la distribution des liens étant beaucoup plus simple en interne. J’ai cru peut-être un peu naïvement que Botify apporterait cette brique manquante au regard de ses prétentions. N’étant pas encore disponible publiquement en SaaS je n’ai pas eu la chance d’essayer l’outil. Toutefois, rien ne laisse entrevoir une telle possibilité dans leur présentation.
Personnellement, c’est l’outil qui nourrit chez moi le plus de regrets vu son potentiel et sa finesse d’analyse, surtout qu’ils insistent sur le côté « simulation des moteurs de recherche ».
L’analyse de la structure « on site » devient un enjeu capital en SEO (mais aussi en marketing), surtout depuis la sortie de Pingouin et Panda. Faute d’outils suffisamment performants, je me retrouve parfois contraint d’employer des pirouettes techniques pour analyser le maillage interne des sites que j’audite :
- Passer en nofollow tous les liens issus des menus, blocs de navigation, footer etc.
- Crawler le site avec un outil comme Screaming Frog SEO Spider, en lui demandant surtout de ne pas suivre les liens nofollow.
- Une fois les données récoltées, on fait une analyse du volume des liens pour faire ressortir les pages de destination d’une part, et les pages qui ne reçoivent pas ou peu de liens « in text » d’autre part.
Mais en pratique, sur un site en prod, on ne peut pas toujours se permettre de faire ce genre de bricolage. Et puis les résultats obtenus doivent être recoupés, pondérés… bref, on est très loin de la solution idéale.
Je cherche une explication… en vain.
Pourquoi les éditeurs font-ils l’impasse là-dessus ?
Soit ils anticipent et proposent des fonctionnalités avant-gardistes, soit ils se contentent de faire du suivisme en scrutant les changements d’algorithme de Google, et/ou en surveillant leurs concurrents, au risque d’avoir toujours un petit temps de retard. Mais cela n’explique pas pour autant l’absence d’analyse contextuelle des liens (lexicale, sémantique et géographique), cette notion étant connue de tous depuis des lustres.
L’analyse sémantique, on le devine, est loin d’être simple techniquement, on en est même aux balbutiements. Cela dit, en analysant le champs lexical de l’environnement proche du lien, la balise title de la page émettrice, ainsi que le sujet traité par la page cible, on devrait estimer le potentiel « full power SEO » d’un lien.
Isoler les différentes parties d’une page ne devrait pas non plus représenter un obstacle : soit par détection du balisage sémantique avec le HTML5 (on est avant-gardiste ou on ne l’est pas), soit par saisie manuelle de footprints (classes CSS, portions de code HTML), soit par recoupement en faisant ressortir les blocs et autres éléments qui reviennent systématiquement (duplicate code source). Et pour parfaire le tout, déterminer si le lien se trouve en haut de page (au-dessus de la ligne de flottaison), ou bien plus bas dans le contenu.
Imaginons le Saint Graal des outils
L’idéal serait d’avoir un outil comme MajesticSEO combiné avec les spécificités de Botify pour l’analyse interne des sites, le crawl, l’analyse des logs etc. Voilà pour la base.
Il serait bien entendu capable de discerner l’emplacement et l’environnement lexical des liens, ce qui permettrait de faire ressortir au moins 4 notes :
- Une note de 1 à 4 pour l’environnement du lien prenant en compte également la qualité de l’ancre. Par exemple un lien en footer obtiendra une note de 1, alors qu’un lien qui baigne dans un bon bouillon sémantique avec une ancre bien ciblée obtiendra le score de 4. (voir mon illustration ci-dessus)
- Une (ou des) note(s) équivalent aux Flow Metrics de MajesticSEO, MozRank etc.
- Une note pour évaluer la résonance sociale de la page émettrice. Voilà encore un critère fondamentale qui peine à être intégré dans les divers outils. On y vient, lentement, mais hélas bien trop souvent en surcouche.
- Enfin une note globale de tout ça, qui se rapprocherait le plus possible de l’analyse des moteurs.
Mais pour être vraiment parfait, cet outil devra autoriser l’utilisateur à modifier les critères de pondération, évaluer le poids et l’importance de chacun de ces critères, voir les désactiver si besoin. On sait tous par exemple que les réseaux sociaux peuvent avoir une influence sur le SEO, mais les contours sont très flous, et les avis divergents dès qu’il s’agit de quantifier le poids, le volume minimum, les apports en popularité annexes etc. Donner la main à l’utilisateur pour « customiser » la pondération peut s’avérer casse-gueule si il en fait n’importe quoi, mais a contrario cette souplesse permettrait de coller au mieux aux stratégies de chacun, être très réactif aux changements d’humeur de big G, et envisager des possibilités infinies de scenarii.
Pour conclure
J’aurais l’air malin si un tel produit existait, et après tout si c’est le cas, tant mieux. J’assumerai ;-)
Dans le cas contraire, si ça peut donner des billes ou des idées à un dev ou un éditeur, tant mieux, du moment que son outil (quelque soit le biz model) soit mis à la disposition de tous.
Mais une chose est certaine, c’est que pour évaluer pleinement la force d’un backlink, on ne peut plus faire l’impasse sur son contexte. Si Google arrive à fournir l’énergie nécessaire pour le faire à l’échelle du web, on doit pouvoir le faire pour nos propres sites.
J’aime beaucoup la clarté de votre schéma sur la performance des liens suivant leur situation dans une page. Ca illustre bien le fait qu’un lien contextuel en haut de page sera mieux pris en compte qu’un lien « sidebar » ou « footer » pour reprendre vos termes dupliqué sur plusieurs pages du site.
Sans pour autant laissé de côté le netlinking (loin de là), j’ai toujours attaché beaucoup d’importance à la structure « on-site » : le balisage, le maillage entre les pages, les structures de liens. Pour le moment ca m’a toujours bien réussi.
Salut Aurélien, étant un grand explorateur des outils SEO sur internet j’ai peut être quelques tools qui méritent d’être explorés plus en profondeur, notamment Cognitive SEO (Voici l’article qui me fait penser que ça peut t’intéresser : http://cognitiveseo.com/blog/604/identify-low-quality-links-easily/) Je n’ai pas testé l’outil jusqu’au bout mais je pense qu’il permet vraiment une analyse plus poussée de l’environnement du lien. A+
J’aime énormément l’infographie sur les liens dans cet article !
Je ne connaissais pas non plus botify et je suis très content d’avoir pu m’inscrire à la preview. Très bon article en tout cas et très clair.
Merci pour ce partage !
Salut Aurélien, encore une fois merci pour l’exhaustivité de ton article et le rappel de tous ces outils SEO qui, finalement après lecture, me semblent complémentaires. Du moins pour une partie d’entre eux. Je pense notamment à Botify et MajesticSEO comme tu le soulignes.
Personnellement, je trouve qu’il est tellement difficile de connaître le trust d’un site en aval, que j’essaye de maîtrise mon netlinking en amont. En clair, j’essaye de contacter les blogs ou journalistes qui appartiennent à la thématique de mon service et j’en discute avec eux. Cela permet d’éviter (du moins de réduire…) les éventuelles dérives spammy. Meme si on est à l’abri de rien…
Après en interne, c’est un autre problème. Je n’ai pas effectué trop de tests de placement de contenu (header, body ou footer) mais j’optimise clairement mon contenu dans le body et ne charge en aucun cas le footer. Je me base sur les grandes tendances que les réferenceurs évoquent.
C’est vrai qu’un outil facon A/B testing eCommerce, mais orienté optimisatin on-site serait top :)
Merci pour ces explications. Au moins le schéma est très clair pour le positionnement des backlinks. Ce qui devient de plus en plus compliqué c’est que finalement cet exemple ne fonctionnera pas forcément sur un autre site etc. Google brouille les pistes, fait bouger les serps, ca devient de plus en plus compliquer de trouver LA formule, le dosage qui permettra d’optimiser son maillage interne sans suroptimiser…
Salut Aurélien,
J’ai lu en diagonale l’article que je lirai à tête reposée ce weekend, mais je te conseille de contacter François Lamotte de chez Mitambo pour ton besoin d’un bon crawler ;) http://www.mitambo.com/
Il faut être sorti de Polytechnique + Ena + Centrale pour comprendre l’interface seule mais avec les explications c’est très intéressant. Il n’y a pas tout ce que tu cherches (qui me semble un peu utopique !) mais il y a de sacrées avancées et c’est le crawler le plus puissant que j’ai jamais vu.
@François-Olivier : fanx ;) J’avais vu la vidéo de présentation de Mitambo sur le site de Jean-Benoït Moingt (Watussi), et j’avoue que le côté usine à gaz expérimentale m’a clairement refroidit. Comme tu dis, faut être ingé pour comprendre l’interface. J’y reviendrai surement quand l’outil aura gagné en maturité. Un bon outil c’est d’abord celui qui doit te faire gagner du temps. Pour un freelance comme moi, je ne suis pas certain qu’il soit vraiment adapté.
Bonjour Aurélien,
Tes attentes sont tout à fait légitimes, et c’est pourquoi nous espérons pouvoir avec Botify atteindre ces objectifs.
Nous avons ces derniers mois passé énormément de temps à faire en sorte de pouvoir crawler des sites de plusieurs dizaines de millions de pages. Le lancement de la première release se fera dans quelques semaines, nous ne serons malheureusement pas capable dès la sortie d’atteindre le niveau de finesse que tu attends, mais je te rassure, nous souhaitons tirer dans le même sens !
@Thomas :
Bonjour,
Ca fait plaisir d’entendre ça :) Pas seulement pour moi mais pour l’ensemble des (futurs) utilisateurs de Botify. On ne pourra jamais atteindre la perfection, mais si votre outil cherche à s’en rapprocher de la sorte, son succès ne fera aucun doute.
Et si l’outil de netlinking idéal était… l’humain ?
Comme tu le dis, beaucoup (trop) de paramètres rentrent en compte lorsqu’il s’agit de qualifier un lien.
Cet article très intéressant oublie amha deux petites choses :
1/ D’autres critères
> Autorité / author-rank
> Facteur d’actualité (si applicable à la thématique) : le lien est-il placé dans un contexte « early-adopter », plutôt « dans la tendance », plutôt suiveur voire carrément déterreur de sujet (comme par exemple l’importance de la meta keyword – mais pas dans les news hein)?
> Facteur de duplicate ou pseudo-duplicate (se rapproche de ci-dessus) : le sujet est-il abordé 40 000 fois sur le web ? est-ce au contraire une niche ?
2/ Re-formuler la question
Pourquoi diantre s’acharner sur Googlebot ? Je me permets de rappeler que Google fait analyser des millions de pages web dans le monde par des humains : les Quality Raters / Internet Assessors / whatever you call it.
Lorsque le bot crawler ramène des signaux qui peuvent être interprétés comme « suspects » par l’algo. / les filtres GG, les URLS sont transmises à ces modérateurs qui les classent (qualité, flags porn, spam, etc). Les notations de ces humains sont ensuite retransmises à GG qui pénalise/reclasse/pondère/ne change rien le cas échéant.
On a selon moi beaucoup trop tendance à minimiser ce rôle de modération humaine, omnibulés qu’on est par la technique. Non ?
@Yann : Merci pour ton éclairage ;)
Ca ne ressort peut-être pas dans ce billet, mais je m’acharne à répéter sans cesse le rôle des quality raters qui contribuent entre autre au « machine learning » de l’algo de Google, et leur rôle très important pour qui veut rester sous le radar.
On sait que l’algo de Google est fait par couches, et que le facteur humain n’intervient que sur une infime partie, après remonté et recoupement de signaux suspects. Mais si déjà on peut avoir une interprétation proche de celle du bot, ça nous aiderait beaucoup à comprendre/déjouer les intervention humaines.
Cela dit ma réflexion était plus… terre à terre et focalisée sur la valeur intrinsèque du lien, et par ailleurs, plus axée sur les maillages internes.
Le rendez-vous est pris chez Botify par Thomas pour faire évoluer leur outil vers plus de finesse et de customization (j’espère). Effectivement Aurélien, je crois que tu as mis le doigt sur un problème de data analys des backlinks. Le HTML5 devrait permettre de donner des infos pertinentes aux crawlers, de Google, comme ceux de Botify, Majestic ou quel que soit l’outil. Mais là il faudra tous passer au HTML5 d’abord…c’est pas pour demain ! Super article.
@actugoogle : Super ! J’ai vu passer un tweet de Thomas justement cherchant à recruter un data & platform enginner, j’imagine qu’il y a un lien ^^
ps: j’ai repêché ton message dans mes spams…
Botify semble très prometteur du moins sur le papier, mais après j’ai quand il sera lancé on pourra se faire une véritable idée, je trouve que l’on en parle beaucoup et en bien c’est déjà un bon signal mais comme Soeur Anne je ne vois rien venir ;)
Bonjour Aurélien,
Oui l’interface peut sembler « usine à gaz » de prime à bord. Historiquement nous avons travaillés sur de gros sites (+ millions de pages), et nous avions besoin de pouvoir isoler rapidement des groupes de pages.
Et puis il a été conçu sur bases d’analyses que nous avions envie de produire (isoler des éléments structurels d’un template, perception d’expressions pour une page, mesure de compétition interne entre pages, calculer la force du graphe, … ). Et ceci sans compter quelques problématiques rencontrées sur différents projets …
En résumé nous n’avons pas voulu créer un outil d’audit « standardisé » … mais des réponses à différentes problématiques. Et c’est vrai que la courbe de connaissance peut paraître complexe.
Une nouvelle version arrive qui va régler certaines problématiques.
Je me ferais un plaisir de te faire une présentation plus détaillée sur plusieurs exemples de site.
@labisse Sur le délai d’attente, je comprends. Créer ce genre d’outils en service en ligne est d’une complexité folle surtout quand on dispose de moyens limités (développeurs, finances, …). Rien que l’année 2012 nous avons analysé une bonne centaine de sites, et la variété des problèmes rencontrés est un poème de prévert. La créativité en matière de cms maison est sans limite. On se rend compte de tout (enfin surement une petite partie) de ce que les dev chez Google doivent gérer. Après les obstacles internes (volumétrie de données à gérer) nous font découvrir qq limites de technos qui surprennent même leurs créateurs. On perd parfois 2 à 4 semaines pour contourner des bugs … ce qui n’aide pas ceux qui attendent de voir qq chose :-)
Un grand merci, pour ces explications sur le netlinking seo, ca devient de plus en plus difficile de comprendre le fonctionnement de tout ca. Et, puis jusqu’a la lecture de votre page, mission impossible de savoir ce qui est « propre » pour un moteur de recherche, d’autant plus que la plupart qui commentent, veulent vous vendre leur sauce.
Bonjour,
Tout d’abord merci pour cet article dans lequel j’ai appris pas mal de « trucs ».
Ma question concerne le Trust Flow, vous dites qu’il est théorique et qu’il peut être faussement haut .
Mais si celui-ci est bas, ça veut dire que le site n’est pas de confiance à 100% ? Ou bien c’est également théorique ?
@Anna : Le TF est un indicateur sur la confiance que l’on peut accorder à un site. Il doit être recoupé avec d’autres indicateurs. Un site avec un très faible TF peut être excellent, surtout s’il démarre. Inversement, un site pénalisé peut avoir un très bon TF car le calcul de ce dernier repose sur des metrics précis et ne prend pas en compte des facteurs comme la qualité du contenu, le comportement de l’utilisateur, le biz model etc.