Visualisez dynamiquement le crawl du Googlebot avec Gephi

L’analyse des logs Apache, et en particulier le crawl du célèbre brouteur « Googlebot » est une tâche qui peut devenir très vite rébarbative pour ne pas dire rebutante. L’idée de ce tutorial est justement de renverser cette tendance : partir de données opaques et difficilement lisibles, vers une interprétation graphique, esthétique et dynamique qui permettra d’apprécier la fréquence du crawl et les pages cibles. Même mon fils de 2 ans m’a lâché un « Ho c’est beau ! » quand il a vu le rendu final :

Log2Gephi

Rendu graphique (statique) du crawl du Googlebot produit avec Gephi

Préambule

Contrairement à mon précédent billet sur les explorations visuelles de réseaux, je ne pourrais pas faire un tuto pas à pas et détaillé concernant la récupération et le pré-traitement des fichiers logs d’Apache. Ce serait trop long. Je pars également du principe que vous savez utiliser un tableur (Excel) pour nettoyer et préparer les données. La partie « Gephi » sera quant à elle plus détaillée.

Avis donc aux SEO tendance geek, qui connaissent quelques rudiments du shell linux, n’ayant pas peur de toucher au logs d’Apache, d’expérimenter, et surtout maîtriser la bête « Gephi » qui n’est pas du genre à se laisser dompter en 5mn. Néanmoins, cela reste accessible à tous, et aucune compétence en programmation n’est requise.

Intérêts et utilité de l’opération

Petit brief sur l’utilité d’analyser le crawl du Googlebot :

  • Mesurer la fréquence du crawl permet de deviner l’intérêt que porte Google à nos pages… Ce n’est pas rien ! Le crawl, et tout le traitement qui s’en suit demande beaucoup de ressources à Google, et il n’a aucun intérêt à envoyer 3 fois par jour son bot sur une page profonde peu visitée, datée, et jamais mise à jour.
  • Une fréquence du crawl qui diminue dans le temps sur une page, peut être interprétée comme une diminution de l’intérêt que lui porte Google, et anticiper une éventuelle baisse de position (en théorie hein).
  • Cela permet également de repérer les pages difficilement accessibles par le bot sur les sites volumineux et optimiser l’indexation.
  • L’analyse globale du Googlebot (sur plusieurs mois) sur un site, permet également de mettre en exergue les pages les plus appréciées aux yeux de Google, autrement dit les plus disposées à ranker.
  • Et globalement pour les stats, les logs Apache, c’est la source la plus fiable !
  • Avec une bonne représentation graphique et dynamique, ce type d’analyse est grandement facilité, voir ludique.

Déroulement des opérations

Comme d’hab, le cheminement va se dérouler en 3 étapes distinctes :

  1. La collecte des données (logs Apache).
  2. Le nettoyage et la préparation des données sous Excel.
  3. La cuisine dans Gephi.

Récupération des logs Apache

Selon le trafic et l’envergure des sites, les logs peuvent êtres très volumineux. On brasse souvent des gigas en quelques semaines, mais ce ne devrait pas être un obstacle dans notre exercice.

Si la rotation est activée, et que vos anciens fichiers sont compressés, vous devrez les décompresser (Gunzip). Ensuite ne perdez pas un temps fous à télécharger l’intégralité des logs ! Seules les entrées générées par le Googlebot nous intéressent (souvent un pourcentage faible). Faites déjà un premier traitement sur le serveur en SSH. Par exemple :
$ cat domaine-access_log | grep -i googlebot > domaine-access_log.googlebot

Plus vous remonterez dans le temps, mieux ce sera. Qu’importe si vos fichiers sont fractionnés, on les fusionnera par la suite. Pour qu’un échantillon soit bien parlant, et que l’on puisse apprécier la fréquence du crawl, essayez de compiler 2 mois de logs.

Une fois vos fichiers logs épurés (ou pas), vous devrez les convertir en CSV. Rien de compliqué, il suffit de lancer le script perl « accesslog2csv.pl » ci-dessous (ou tout autre outil qui va bien) :

#!/usr/bin/perl

#
# @file
# Converter tool, from Apache Common Log file to CSV.
#
# All code is released under the GNU General Public License.
# See COPYRIGHT.txt and LICENSE.txt.
#

if ("$ARGV[0]" =~ /^-h|--help$/) {
  print "Usage: $0 access_log_file > csv_output_file.csv\n";
  print "   Or, $0 < access_log_file > csv_output_file.csv\n";
  print "   Or, $0 < access_log_file > csv_output_file.csv 2> invalid_lines.txt\n";
  exit(0);
}

%MONTHS = ( 'Jan' => '01', 'Feb' => '02', 'Mar' => '03', 'Apr' => '04', 'May' => '05', 'Jun' => '06',
  'Jul' => '07', 'Aug' => '08', 'Sep' => '09', 'Oct' => '10', 'Nov' => '11', 'Dec' => '12' );

print STDOUT "\"Host\",\"Log Name\",\"Date Time\",\"Time Zone\",\"Method\",\"URL\",\"Response Code\",\"Bytes Sent\",\"Referer\",\"User Agent\"\n";
$line_no = 0;

while (<>) {
  ++$line_no;
  if (/^([\w\.:-]+)\s+([\w\.:-]+)\s+([\w\.-]+)\s+\[(\d+)\/(\w+)\/(\d+):(\d+):(\d+):(\d+)\s?([\w:\+-]+)]\s+"(\w+)\s+(\S+)\s+HTTP\/1\.\d"\s+(\d+)\s+([\d-]+)((\s+"([^"]+)"\s+")?([^"]+)")?$/) {
    $host = $1;
    $other = $2;
    $logname = $3;
    $day = $4;
    $month = $MONTHS{$5};
    $year = $6;
    $hour = $7;
    $min = $8;
    $sec = $9;
    $tz = $10;
    $method = $11;
    $url = $12;
    $code = $13;
    if ($14 eq '-') {
      $bytesd = 0;
    } else {
      $bytesd = $14;
    }
    $referer = $17;
    $ua = $18;

    print STDOUT "\"$host\",\"$logname\",\"$year-$month-$day $hour:$min:$sec\",\"GMT$tz\",\"$method\",\"$url\",$code,$bytesd,\"$referer\"\,\"$ua\"\n";
  } else {
    print STDERR "Invalid Line at $line_no: $_";
  }
}

La syntaxe :
$ perl accesslog2csv.pl domaine-access_log > domaine-access_log.csv
Une fois terminé, téléchargez vos fichiers pour passer à l’étape suivante.

Nettoyage et préparation des données

Si il y a une règle constante dans la représentation graphique de données, c’est l’importance du nettoyage. La moindre approximation peut donner de la bouillie.

Sans que je puisse expliquer pourquoi, je ne peux ouvrir correctement un CSV sous Excel 2010 qu’en le convertissant au préalable en UTF-8. Dans le cas contraire les séparateurs ne sont pas interprétés.

Si vous ne l’avez pas déjà fait sur le serveur, fusionnez vos fichiers pour n’en faire plus qu’un.

Choix des bots

Vous remarquerez très vite (et vous le savez certainement) qu’il y a plusieurs Googlebots, consultez la liste complète ici. A vous de choisir ceux que vous voulez exploiter, sachant qu’il sera tout à fait possible de les différencier lors du rendu graphique. Par contre le user agent « Mediapartners-Google » spécifique aux annonces Adsense n’est pas là car il n’a pas la dénomination « Googlebot ». Si vous voulez l’exploiter il faudra refaire un filtre en amont sur le serveur.

Suppression des colonnes superflues

Supprimez les colonnes « Log Name », « Time Zone », « Method », et « Referer ».
La colonne « Host » (IPs), avec un peu d’imagination, pourrait être utile. On la garde. La colonne « Date » est très importante. L’URL est bien entendu indispensable, « Response Code » peut avoir un intérêt tout comme « Bytes Sent ». Quant au « User Agent », si vous n’avez gardé que le crawl du Googlebot 2.1 classique, cette colonne ne vous servira à rien.

Suppression des lignes superflues

Ici aussi cela reste à l’appréciation de chacun. On pourra supprimer les lignes qui correspondent aux fichiers images, .css, .js etc. Il y a également les crawl sur les pages 404, 301, 302, avec paramètres de sessions… Je vous conseille pour un début de vous en tenir aux pages canoniques (avec un peu de cuisine, on pourrait importer et fusionner les rel canonical, ça aiderait). Néanmoins, ces lignes peuvent être un bon indicateur pour mesurer d’éventuelles déperditions, et aider à l’optimisation du crawl.

Quelles sont les entités, et quelles relations leur attribuer ?

La visualisation graphique d’un réseau de données implique qu’il y ait des entités (nodes) et des relations (dirigées ou pas) entre elles.

Graph dirigé

Dans le cas présent, on ne peut pas prendre un bot (User Agent) comme une entité (node). Ce que l’on veut représenter dans notre graph ce sont chaque hits du Googlebot vers les pages du site. Si on doit avoir une relation A -> B, on sait déjà que B correspond à l’URL, mais pour A ça reste un peu plus flou. La date ? C’est ce qui vient en premier à l’esprit, mais peut faire désordre dans certains cas : si vous décidez par exemple d’exploiter plusieurs versions du Googlebot (image, mobile, etc.), que se passerait-il si dans la même minute, 2 Googlebots différents opèraient sur le site ? On n’aurait qu’une entité au départ alors qu’en fait il y en aurait 2.

L’idée est donc de créer une colonne supplémentaire que l’on nommera (obligatoirement) « Id ». Au préalable, vous devez trier votre colonne « Date » par ordre du plus ancien au plus récent. Créez ensuite la colonne « Id ». Entrez comme premières valeurs "Crawl 1", "Crawl 2" puis faites une copie incrémentale jusqu’à la fin de votre fichier. Ne mettez pas uniquement des valeurs numériques dans cette colonne ID, vous comprendrez plus tard pourquoi.
Voilà, les relations (Edges) seront plus claires ainsi.

Excel

Si votre fichier est bien propre, et que tout est ok, sauvegardez-le en le nommant par exemple « nom-fichier-NODE.csv ».

Création d’un fichier edge pour Gephi

Créez une nouvelle version de votre fichier en le nommant cette fois « nom-fichier-EDGE.csv ». C’est ce fichier qui va établir les relations "Crawl x" -> "Url".
Renommez les colonnes « Id » en « Source », et « URL en « Target », gardez éventuellement les colonnes « Date » et « Bytes Sent » et supprimez toutes les autres. Enregistrez votre fichier sous la forme « nom-fichier-EDGE.csv ».
La préparation des données est maintenant terminée :)

Traitement des données avec Gephi

Ceux qui ont suivi mon article sur l’exploration visuelle de backlinks avec Gephi trouveront vite leurs repères, l’intégration des données se déroule de la même manière.

J’ai également réalisé un petit screencast (muet) qui reprend étape par étape le traitement des données décrit ci-dessous :

Importation du fichier NODE

Node import

  1. Affichez l’onglet « Data laboratory », l’espace dédié au traitement des données.
    N’importez pas votre fichier via le menu file / open !
  2. Créez un nouveau document (Ctrl+Shift+N).
  3. Dans la fenêtre « Data table », sélectionnez « Nodes ».
  4. Cliquez maintenant sur « Import spreedsheet » pour importer votre fichier.
  5. Ouvrez votre fichier Node (ex: nom-fichier-NODE.csv) en prenant soin de sélectionner le bon séparateur (virgule, point-virgule, tabulation…), « As table » sur « Nodes table », et l’encodage adéquat. Cliquez ensuite sur « Next ».
  6. A l’écran suivant (import settings), laissez tout sur « string », décochez éventuellement les colonnes que vous ne souhaitez pas garder.
  7. Si tout s’est bien passé, vous devriez avoir des colonnes « Nodes » et « Id » identiques.

Importation du fichier EDGE

edge importOn importe cette fois le fichier Edge qui va créer les différentes relations entre chaque nodes. Cliquez à nouveau sur « Import Spreadsheet », et renouvelez l’opération avec le fichier EDGE (ex: nom-fichier-EDGE.csv). N’oubliez pas de spécifier « Edge table » pour « As table » ! A l’écran suivant, cochez impérativement « Create missing nodes », afin de créer automatiquement les nodes correspondant aux Urls.

Inspectez soigneusement vos tables « Nodes » et « Edges » (à côté du bouton configuration). Dans votre table Nodes, en fin de fichier, devrait se trouver les entités (Urls) créées automatiquement lors de l’import du fichier Edge.

Préparation des informations à afficher

Il sera utile d’afficher certaines informations dans notre rendu graphique, comme l’URL des pages pour mieux les identifier. En revanche pas la peine d’afficher les user agent des Googlebot, ils recouvriraient tout. Si il y a plusieurs types de Googlebot (image, mobile, etc.), nous les distingueront avec un code couleur différent.
Pour préparer le terrain, nous allons donc créer une nouvelle colonne « Infos » dédiée à l’affichage des infos, mais pas question d’utiliser la colonne « Label » (un peu long à expliquer pourquoi).

Toujours dans la table « Nodes », créez une nouvelle colonne (« Add column » dans les icônes du bas) de type string. Nous allons maintenant dupliquer les valeurs de la colonne « ID » dans « Infos » via le bouton « Copy data to other column ». Attention de bien choisir la colonne source (Id), et cible (Infos).
Comme le logiciel impose de copier l’intégralité des données de la colonne, il faut maintenant supprimer toutes les données avec « Crawl XXX » pour ne garder que les URLs des pages.

RegexCliquez sur « Search/Replace » à côté d’"import spreadsheet". Dans la partie search, mettez « Crawl [0-9]* » et laissez « replace with » vide. Cochez Regular expression search, et surtout, spécifiez bien que vous voulez faire cette opération dans le colonne « Infos » ! Cliquez ensuite sur « Find next », puis « Replace all », et enfin ok. Votre colonne « Infos » ne devrait contenir que les URLs.

Conversion des dates

Tout l’intérêt de l’opération est là : visualiser dans le temps l’évolution du crawler Googlebot grâce à une timeline, à la manière d’un logiciel de montage vidéo. Le format "20/03/2013 13:10" n’étant pas un format dynamique, il faudra recréer une colonne en convertissant les données. Pour y parvenir, suivez précisément ce processus :

  • Relevez dans un premier temps la date la plus ancienne, elle vous sera utile plus tard, mais pas forcément accessible ou visible.
  • Via les icônes du bas, cliquez sur « Merge columns ». L’opération merge, va en fait créer une nouvelle colonne dynamique.
  • Dans la boite de dialogue « Merge columns », passez « Date — String » dans « Columns to merge ».
  • Dans la liste déroulante « Merge strategy », indiquez « Create time interval », puis « Ok ».
    merge
  • Un nouvelle fenêtre « Time interval creation options » apparaît. Remplissez-la exactement comme le screenshot ci-dessous. Dans la partie « parse data » spécifiez bien le format, et surtout la date du premier crawl. Cliquez ensuite sur Ok, une nouvelle colonne « Time Interval » devrait avoir fait son apparition.
    Time interval

Voilà, on est prêt pour passer à l’étape suivante ! Enregistrez bien votre fichier, la suite demandera pas mal de tâtonnement, et de retours en arrière (le Ctrl+Z est encore au stade conceptuel sur Gephi).

Visualisation et animation

Nous y voilà… enfin ! Cliquez sur l’onglet principal « Overview » (« Preview » ne sert que pour les rendus statiques).

Comme toujours dans la visualisation de données, le premier rendu ne donne pas grand chose. Ne touchez pas à la partie « Layout » pour le moment ! Nous allons dans un premier temps différencier les nodes (représentés par des cercles) avec des codes couleurs différents, puis faire varier algorithmiquement la taille de ces derniers en fonction du nombre de hits du/des Googlebots. En gros, plus le node est gros, plus Google aime la page.

A chacun sa couleur

PartitionDans la palette partition, sélectionnez « Nodes », cliquez sur l’icône refresh à gauche de la liste déroulante, sélectionnez « User agent ». Si tout va bien vous devriez avoir la liste des différentes version de Googlebot avec pour chacun un code couleur différent. « null » correspond en fait aux pages (URLs) : essayez de leur attribuer une couleur qui tranche (cliquez sur le carré de couleur pour éditer). Cliquez ensuite sur « Apply ». Ca commence à prendre du sens…

Un peu d’algo (in-degree) pour faire ressortir les URLs préférées du bot

rankingAffichez maintenant la palette « Ranking » (ça vous parle hein ?), activez « Nodes », et cliquez sur l’icône en forme de diamant à droite. Choisissez « InDegree » dans la liste déroulante « Choose a rank parameter ». Mettez 8 / 80 pour les valeurs min / max size, vous les réajusterez par la suite si besoin. Apply.

Layout de présentation

Les « layouts » sont des algorithmes de distribution des éléments (nodes/edges) dans l’espace. Il en existe plusieurs, certains sous forme de plugins, mais le plus adapté pour notre exemple reste « Force Atlas » (la version 2 s’y prête moins je trouve).

Dans la palette « Layout », Sélectionnez « Force Atlas » dans la liste déroulante. Ne cliquez pas encore sur « Run ». Dans les paramètres de Force Atlas, changez la valeur « Attraction strenght » à 0.2. Les valeurs par défaut peuvent être restaurées à tout moment via le bouton « reset » en bas de palette.

Cliquez maintenant sur play, et admirez ;)

Affichage des infos (URLs)

Sous le graph se trouve la barre d’outils pour gérer l’affichage des informations. Cliquez sur l’icône « T » (la noire pour « Node labels »). Il ne se passe rien, normal, notre colonne n’est pas renseignée. Cliquez maintenant sur l’icône des « attributes » (tout à droite avec une clé). Cochez maintenant la checkbox « Infos » (dans la partie Nodes), puis Ok. Faites varier la taille de la police si besoin avec les sliders, affichez sur fond noir si vous préférez (icône en forme d’ampoule à gauche). Classe non ?

rendu graphi

Allez, le meilleur pour la fin…

Visualisation dynamique du crawl avec la timeline

En bas de l’interface, activez la timeline. Réduisez la fenêtre de temps au minimum, puis faites la progresser de préférence manuellement pour mieux apprécier la progression du Googlebot.
Timeline
Libre à vous par la suite de jouer avec les autres layouts, afficher le volume transféré de chaque crawl, la date, les IP etc.

Un petit screencast complémentaire pour ceux qui aurait du mal à suivre cette 3ème et dernière partie :

Voilà. Je me doute que beaucoup n’arriveront pas jusqu’au bout, peut être par manque de courage, ou faute d’y voir un réel intérêt. Pourtant une chose est sûre, l’analyse des logs si elle est souvent occultée dans les prestations SEO, est extrêmement riche en informations, et surtout une source fiable ! Encore faut-il les décrypter en les rendant « lisibles ». La visualisation graphique de données est là pour ça. En ce sens, Gephi apporte avec l’analyse des logs, une lecture alternative (et dynamique) aux visuels plus conventionnels que sont les camemberts, courbes, graphiques à barres etc. Et surtout les possibilités avec Gephi sont très étendues. L’objectif de ce tuto est également de vous familiariser avec cet outil entièrement gratuit et open source.
D’ailleurs, ça me fait penser à ce soft « Cognitive SEO » qui coûte un oeil et dont l’une des principales valeurs ajoutées est justement des cartographies graphiques des backlinks à la sauce Gephi. Prenez un abo chez Majestic SEO (cognitive SEO utilise leur API si je ne me trompe pas), exportez dans Gephi (voir mon autre tuto sur le sujet), c’est plus souple, et ça revient moins cher. Prochain billet sur l’exploration graphique de réseaux de données très bientôt, tourné cette fois vers les réseaux sociaux, Twitter en particulier.

Vous pouvez avoir un lien en DoFollow si :
  • Vous ne faites pas de lien optimisé (brand ok).
  • Votre contribution apporte de l'eau au moulin et ne se contente pas de remercier (même si c'est toujours appréciable).
  • Vous ne donnez pas l'impression de ne pas avoir lu l'article.
  • Votre site doit graviter dans l'univers du SEO / web marketing / IT.
  • Nouveau : Se suivre mutuellement sur Twitter (oui ça fait copinage, et j'assume !).
Le but n'étant pas d'être plus sévère, mais au contraire plus équitable et... naturel. N'oubliez-pas : moins de spamco = meilleur jus !

20 réflexions au sujet de « Visualisez dynamiquement le crawl du Googlebot avec Gephi »

  • Comme à ton habitude un contenu de qualité et toujours super bien expliqué ! C’est vraiment agréable à lire je ne peux que te féliciter pour ce travail de qualité.

    Concernant le crawl Google c’est un point important à surveiller et qui fait partie des points clés concernant l’optimisation de son site pour les bots des moteurs de recherche. Dans ton tutorial la visualisation via Gephi servirait plus à mon sens d’explication aux équipes internes sur un projet que pour une utilisation perso. Même si je suis sur que je passerai bien des heures regarder ces graphiques plein de couleurs :p

  • Très bon article pour visualiser les données du crawl de Googlebot qui peut vite être difficile à décortiquer. Par contre, vu que j’utilise Nginx et non Apache, un problème pourrait survenir pendant la pratique de Gephi. D’après ce que je vois comme code, il n’y a rien de différent mais on sait jamais !

    Dernière remarque, je doute qu’il soit utile de l’utiliser pour les gros sites avec des milliers voir des millions de pages.

  • @waouo : du moment que tu peux convertir tes logs en csv, je ne vois pas ou peut être le problème avec le reste (Gephi).
    Quant à ta dernière remarque, je pense exactement le contraire : ce type de visualisations graphiques s’appliquent très bien aux gros sites et au « big data » en général.

  • Merci Aurélien pour cette suite ! L’analyse de logs a le vent en poupe, et demande quand même un entraînement et une pratique qui ne peuvent peut-être pas s’appliquer à toutes les prestations.

    J’aimerais avoir une fourchette, savoir combien de temps cela a pris pour être capable de se connecter à un serveur et de mettre en œuvre cette méthode afin d’analyser le comportement des crawlers.

    Quant à l’exploration des données des réseaux sociaux, il y a des représentations graphiques pour twitter sur cette page : http://pegasusdata.com/2013/03/27/tutoriel-exploiter-ses-donnees-twitter/ , cela peut vous intéresser.

  • @Omnireso : Salut ;) pour la question du temps, 10mn environ, à condition de savoir ou on va et de maîtriser la « chaîne ».
    Merci pour ton lien, il m’avait échappé et ça a l’air très intéressant !

  • Je faisais jusque là les analyses « à l’ancienne » avec excel et tableau croisé dynamique mais ce magnifique tuto me donne envie de tester Gephi !
    Bravo pour cet (et tes) articles d’une manière générale !
    François

  • D’accord, merci pour cette réponse rapide !

    Je vais le tester sur un site avec quelques milliers de pages pour voir si c’est vraiment pertinent ! Bien que j’ai peur de me perdre rapidement avec toutes les nombreuses pages crawlées

  • Merci pour ce nouvel article, sur htitipi ils sont rares mais toujours d une grands qualité. C est du concentré de SEO.

    Personnellement, je trouve que la visualisation graphique apporte vraiment quelque chose en plus. On a d ailleurs un très bon exemple avec cognitiveSEO (mentionné rapidement dans l article). En effet, ce sont exactement les mêmes données (ahrefs et majestic SEO) mais le fait de les mettre en forme d une manière optimisée donne souvent une vision inédite de la chose.

    J avoue que Gephi me fait toujours un peu peur étant donné que c est tout de même une usine à gaz. Ce article me donne vraiment envie de me lancer dans l aventure de l analyse de logs.

    Merci encore pour tes articles aurélien.

  • Bonjour;
    J’ai toujours un doute sur l’utilité opérationnelle de ce type de visualisations. J’admire le travail, mais je me demande quelles informations je pourrais apprendre de ces représentations très très complexes. Ont-elles un avantage par rapport aux tableaux ou graphs déjà à disposition.
    Pour être transparent, on avait testé chez Yooda ce type de représentation pour le module Audit de Site de SeeUrank, pendant les alpha tests. C’était fun de voir le graphe se construire… mais ça nous est apparu très difficile à interpréter même pour un public de SEO/Webmarketeurs.

  • @Lionel : L’intérêt est surtout de pouvoir mesurer dynamiquement l’appétence du bot pour nos pages. Cet intérêt augment proportionnellement au volume de données à analyser. Et puis le but de ce petit tuto est aussi de montrer par le bout de la lorgnette les possibilités infinies offertes par Gephi, et la visualisation de données en général. L’analyse du crawl Googlebot est presque un exemple parmi d’autres, mais également l’occasion pour moi de montrer les informations extrêmement utiles et fiables que l’on peut en tirer.

  • Pas de honte a dire que je n’ai pas compris grand chose à la première lecture ;) Mais comme je suis bon client ici je recommence. Sinon en terme général sur le crawl Google a mon sens on réduit au maximum les étapes entre la home et le contenu et cela suffit largement et ensuite je pas forcer le crawl, le ping systématique n’est pas toujours une bonne idée par nature, dans ce sens ton article m’intéresse mais je ne porte que relativement peu d’importance au crawl de GG, si la structure est bonne ca passe lentement mais surement

  • @Labisse : Réduire au max les étapes entre home et pages de destination pour s’assurer d’un crawl optimal et homogène ne vaut que pour les sites de faible envergure, et sans réelle structure (maillage interne).

    Pour les sites à gros volume brassant des milliers voir des dizaines de milliers de pages, ils ne peuvent pas se permettent d’avoir des centaines de liens en page de niveau 1, et le googlebot devient très vite sélectif avec ce genre de site. Deviner quelles sont les URLs préférées et délaissées par le Googlebot devient alors nécessaire dans le processus du SEO.

  • Super tuto. Après 2 essais c’est magnifique çà marche et c’est beau ! :-) En revanche une question me perturbe. Je constate qu’une de mes pages sur un tout petit site n’est pratiquement pas crawlée alors que je la place en avant dans la navigation et qu’elle reçoit du jus par 4 pages de niveaux supplémentaire. Donc je constate qu’elle est peut visitée ce qui est déjà çà mais j’aimerai bien savoir comment inverser la tendance.

  • Ah oui et petite précision cette page en question est l’une des plus puissante en terme de trustflow. Donc quelle conclusion en tirer ? Un trusflow élevé ne veut pas dire crawl important ? je vais essayer de remettre en avant cette page sur mon site pour voir si cela bouge.

  • @tanguy : Le trustflow n’est pas un indicateur fiable pour évaluer l’éventuelle toxicité des liens référents, ou une pénalisation de la page. Dans une certaine mesure, on peut dire que oui,un trustflow élevé peut être synonyme de crawl fréquent, il y a une corrélation, mais c’est loin d’être systématique.
    Après pour déterminer la cause du faible crawl de cette page, c’est une tout autre histoire qui nécessite un travail d’analyse fine ;) Bon courage !

  • Excellent tutoriel! Un conseil important tout de même pour les novices: pour être sûre d’avoir un dataset valide (être sûr qu’il s’agît bien de Googlebot et pas un quelconque bot qui déclare le User-Agent du Googlebot, il y en a beaucoup) il vaut mieux faire un DNS Reverse Lookup sur l’IP de chaque hit déclaré avec le User-Agent Googlebot.
    Cet excellent script VBA fait gagner beaucoup de temps pour ce processus:
    DNS Reverse Lookup in Excel > http://protocolsyntax.wordpress.com/2012/12/04/dns-reverse-lookup-in-excel/
    Surtout si comme indiqué dans l’article on copie la liste d’IP, que l’on suprime les dupliquées et que l’on réattribue le dns avec VLOOKUP.

  • Merci Aurélien pour cet article très instructif. J’ai suivi ton tuto pas à pas mais chez moi le logiciel est à la peine pour calculer le rendu final en mode « Force Atlas ». J’ai tenté d’augmenter le paramètre « Attraction strength » au delà de 0.2 (comme tu préconises pour avoir un résultat lisible), mais le temps de calcul reste interminable (le graphe se déploie par « à-coups » très lents…) Aurais-tu des pistes pour tenter d’optimiser quand ça coince de ce côté ? (nombre de noeuds/liaisons acceptables dans le calcul, mode de rendu…)
    Merci beaucoup pour ton retour d’expérience. J’ai découvert Gephi grâce à ton article et j’aimerais bien le pousser dans ses retranchements ;)

  • @Alexandre : hélas, je ne vais pas pouvoir t’aider. Gephi a changé de version maintenant, et moi ça fait presque 2 ans que je ne l’ai plus touché pour faire de la visualisation de data. Dans une logique SEO, la visualisation de données par Gephi n’apporte pas grand chose je trouve. Et oui, on peut changer d’avis, ce n’est pas interdit ^^ Et puis comme tu peux le constater, c’est leeeeent, très leeeent ! DEs outils comme powerBI, QlikView, ou Tableau sont beaucoup plus adaptés now. Voilà.

Les commentaires sont fermés.