Utiliser un crawler pour le seo

39
UTILISER UN CRAWLER POUR LE SEO Philippe YONNET Agence Search Foresight – My Media

description

Conférence au Tuniseo 2014. Qu'est-ce qu'un crawler ? Comment utiliser cet outil pour auditer un site web ? Quelle utilisation en faire pour le SEO ?

Transcript of Utiliser un crawler pour le seo

Page 1: Utiliser un crawler pour le seo

UTILISER UN CRAWLER POUR LE SEOPhilippe YONNET

Agence Search Foresight – My Media

Page 2: Utiliser un crawler pour le seo

Search ForesightForesight : définition • “an act or the power of foreseeing” : prescience• “provident care” : prudence et prévoyance• “an act of looking forward” : prospective

Page 3: Utiliser un crawler pour le seo

Philippe YONNET – Directeur de Search Foresight

• Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience en référencement naturel.

• Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…)

• Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga.

• Philippe YONNET est le président fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones.– Il est un contributeur régulier de la lettre professionnelle

d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles

– Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us

– Il a créé la certification CESEO, qui valide les connaissances des experts en SEO

Page 4: Utiliser un crawler pour le seo

C’est quoi un crawler ?

• Deux modes : aspirateur / spider– Aspirateur : on lui fournit une liste d’urls, que le robot

« aspire » (télécharge) pour alimenter une base de données

– Spider : on fournit une url de départ au robot, qui analyse le contenu de la page web, trouve les liens à l’intérieur, les stocke dans une file d’attente. Puis il télécharge les nouvelles urls trouvées, trouve d’autres liens à l’intérieur et ainsi de suite…• On appelle le processus suivi par le spider le « crawl », et on

appelle aussi les spiders des « crawlers »

Page 5: Utiliser un crawler pour le seo

5

Web

URLs crawledand parsed

URLs frontier

Unseen Web

Seedpages

Page 6: Utiliser un crawler pour le seo

LES USAGES CLASSIQUES

Page 7: Utiliser un crawler pour le seo

La détection des liens brisés

• Détection des pages 404

Page 8: Utiliser un crawler pour le seo

La détection des redirections

• Détection des erreurs 30x• Objectif : diminuer le volume de 301• Eliminer les 302

Page 9: Utiliser un crawler pour le seo

Détection des erreurs

• Détection des erreurs avec Botify

Page 10: Utiliser un crawler pour le seo

UTILISATION AVANCÉE

Page 11: Utiliser un crawler pour le seo

Tester les performances du site

• Le temps de téléchargement du code a une influence sur l’exploration de Google

Page 12: Utiliser un crawler pour le seo

Tester les performances du site

• Google webmaster tools ne fournit que des temps « moyens »

• Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement

Page 13: Utiliser un crawler pour le seo

Détection des duplicate title et descr

• Exemple avec Screaming Frog

Page 14: Utiliser un crawler pour le seo

Vérification des plans de taggage

Page 15: Utiliser un crawler pour le seo

Vérification du duplicate

• Ex avec Botify

Page 16: Utiliser un crawler pour le seo

Vérification de l’efficacité de la mise en cache

• Extraction de patterns : – timestamp de génération de la page vs horodatage du

téléchargement de la page– Test de requêtes conditionnelles (If modified since et renvoi

de codes 304)– Etc.

Page 17: Utiliser un crawler pour le seo

Analyse de la profondeur

• Profondeur : nb de clics nécessaires pour atteindre une page en cliquant sur des liens– Exemple ci-dessous : Botify

Page 18: Utiliser un crawler pour le seo

Pourquoi mesurer la profondeur ?

Prof

0

Prof

1

Prof

2

Prof

3

Prof

4

Prof

5

Prof

6

Prof

7

Prof

80

20000

40000

60000

80000

100000

120000

140000

nb urls crawlables non crawléesnb urls crawlées

Plus une url est profonde, moins elle reçoit de linkjuicePlus une url est profonde, moins elle a de Pagerank, moins elle est crawlée

Page 19: Utiliser un crawler pour le seo

Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)

Page 20: Utiliser un crawler pour le seo

Les prérequis pour le crawler

• Respect du robots.txt• Gestion du nofollow sur les liens• Gestion du nofollow dans les balises

meta• Gestion du x-robots-tag dans les en-

têtes http://• Gestion des canonical comme des

redirections

Page 21: Utiliser un crawler pour le seo

Analyse des link rel=canonical

Page 22: Utiliser un crawler pour le seo

Analyse des liens sortants

• Ex : botify

Page 23: Utiliser un crawler pour le seo

Diagnostic complet

• Ex avec Botify (tableau de bord)

Page 24: Utiliser un crawler pour le seo

L’analyse combinée crawl+logs

• Urls crawlables => données par votre crawler

• Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot)

Home

Cat 1

P1

P2

P3

Cat 2

P1

P2

P3

P4

Cat 3

P1

P2

Votre version

Home

Cat 1

P1

P2

P3

Cat 2

P1

P1bis

P2

P2bis

P3

P4

Cat2bis Cat 3

Version vue par Googlebot

Des urls en moinsDes urls en +

Page 25: Utiliser un crawler pour le seo

Principe de l’analyse des deux versions

Urls crawlées par Google,

non présentes sur le site :

URLS parasites, à

bloquer dans le robots.txt

Urls présentes sur le site, non explorées par

Google : identifier la

cause

Urls OKprésentes

et crawlées

Page 26: Utiliser un crawler pour le seo

L’analyse du maillage interne

• Objectif : mesurer les ratios– Nb de liens entrants vs liens sortants– Nb de liens sortants internes vs externes

• Indegree = nombre de liens entrants

• La hiérarchie des indegrees doit être conforme à l’importance des pages

Page 27: Utiliser un crawler pour le seo

EXEMPLES DE CRAWLERS UTILES

Page 28: Utiliser un crawler pour le seo

Xenu Link Sleuth

• http://home.snafu.de/tilman/xenulink.html

Page 29: Utiliser un crawler pour le seo

Link Examiner

• http://www.analogx.com/contents/download/Network/lnkexam/Freeware.htm

Page 30: Utiliser un crawler pour le seo

Siteliner

• http://www.siteliner.com

Page 31: Utiliser un crawler pour le seo

Screaming Frog

• http://www.screamingfrog.co.uk/seo-spider/

Page 32: Utiliser un crawler pour le seo

Lucène (java)

• https://lucene.apache.org/

Page 33: Utiliser un crawler pour le seo

Nutch (java)

• https://nutch.apache.org/

Page 34: Utiliser un crawler pour le seo

Scrapy (python)

• http://scrapy.org/

Page 35: Utiliser un crawler pour le seo

80legs

• http://80legs.com/

Page 36: Utiliser un crawler pour le seo

Deepcrawl

• http://deepcrawl.co.uk/

Page 37: Utiliser un crawler pour le seo

Botify

• https://fr.botify.com/

Page 38: Utiliser un crawler pour le seo

DES QUESTIONS ?

Page 39: Utiliser un crawler pour le seo

Merci !

• Me contacter :

Philippe YONNET

Directeur Général de l’agence Search ForesightGroupe My Media

55 rue Anatole France – 92300 LEVALLOIS [email protected]

Tél : 01 74 18 29 40

Président de l’association SEO Camp24 avenue Ledru-Rollin 75012 PARIS

[email protected]://www.seo-camp.org