Post on 21-Jan-2018
#OnCrawlBreakfast
Ouvrir la boite noire de l’algorithme de Google grâce au croisement de données
#DAF2017
@FrancoisGoube, CEO @Oncrawl
WORKSHOP – DAF 17
A ropos
Francois GoubeFounder @OnCrawl15 years SEO experience, Serial
Entrepreneur. Membre du CA SEOCamp,
Majestic.com Ambassador
Semantic Nerd
Data addict & SEO
maniac
www.oncrawl.comwww.oncrawl.com
We help E-commerce & Online media take
better SEO decisions and grow their revenues
By providing access to the Most Advanced SEO Software
Semantic SEO Crawler
Comprehensive Log Analyser
API & Platformto combined all website’s data
OnCrawl is the most advanced and accurate data platform for Technical SEOs
Semantic SEO Crawler
Comprehensive Log Analyser
API & Platformto combined all website’s data
Quelques chiffres en 2017
+500 clients
150k Analysis
100B Logs/m
250M URLs / Week
Fastest growing player
Programme1. Quels sont les données et outils indispensables à l’analyse SEO ?2. AT Internet x OnCrawl: comment entrer dans la matrix3. Devenir ROIste dans son approche SEO
4. Votre arme secrète: le croisement de données
#OnCrawlBreakfast
www.oncrawl.comwww.oncrawl.com
Quelles données et outils utiliser pour prendre
les bonnes décisions en SEO ?
Indexabilité
La compréhension et le contrôle de
l’indexabilité d’un site est essentiel
pour favoriser la performance du
crawl et de l’indexation
Content
Déterminer la qualité de mon
contenu et les différences de
volumétrie pour comprendre mon
positionnement.
Duplicate ContentLe Simhash a pour but de calculer
une signature pour chaque page
basée sur l’évaluation du texte (N-
Grams).
Permet de grouper les pages par
contenu similaire
Architecture
Comprendre sa structure de liens
internes pour mieux optimiser ses
flux de popularité interne
#OnCrawlBreakfast
PerformanceL’optimisation des performances est
un sujet majeur pour les SEO
OnCrawl permet de gagner du
temps dans l’analyse des points perf
critiques
OnCrawl le rend comprehensible
• All bots data
• Status codes
• Crawl frequency
• List of URL fetched by bots
• All referring traffic data
• Active pages
• Freshrank
• …
Vous savez ce Google fait
What Google says about « Crawl Budget »
If new pages tend to be crawled the same day they're published, crawl budget is not something webmasters need
to focus on.
[…] if a site has fewer than a few thousand URLs, most of the time it will be crawled efficiently.
[…] we don't have a single term that would describe everything that "crawl budget" stands for externally.
https://webmasters.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html
Bien comprendre la notion de “Budget de crawl”
Google Crawl Budget
“Taking crawl rate and crawl demand together we define crawl budget as the number of URLs Googlebot can and wants to crawl.”
✓ Google choisit chaque jour un nombre de pages à crawler
✓ Votre rôle est d’orienter les robots de Google vers vos pages prioritaires
Permet d’extraire :• les KPIs comportementaux• la liste des pages importantes et celles qui génèrent du trafic• les KPIs business• temps forts de l’année
Comment les utilisateurs réagissent aux contenus ?
Les comportements utilisateurs est au cœur des enjeux de croissance
La validation humaine fait partie du processus de Machine Learning
AT INTERNET
METRICS :
sources des visites
part du SEO dans l’acquisition
tx de rebond
tps de visite
nb de pages vues
tx de revisite
micro, macro objectifs
tx de transfo
tx d’abandon
Le croisement de données : votre arme secrète
Grâce aux données de logs et de crawl vous pouvez déterminer quels paramètres influencent les moteurs de recherche.
Grâce à l’analyse d’audience AT Internet couplée aux données de crawl, vous comprenez les vecteurs de performance de votre trafic SEO
Etre omniscient
Illustration Professeur
Tout savoir grâce aux bonnes data
Vous êtes le professeur X de votre site web
Est-ce que mon architecture correspond à mon objectif?
OnCrawl synchronise vos segments grâce à votre tag AT Internet
Est-ce que mon architecture correspond à mon objectif?
OnCrawl synchronise vos segments grâce à votre tag AT Internet
Value proposition:We can 100% guarantee your tag plan is properly set and produces accurate data
How we do that?1. OnCrawl perfoms an exhaustive crawl of all urls available on the website
2. OnCrawl executes all pages’ ressources (Javascript is the main thing here)
3. OnCrawl not only control the <AT Internet Tag> is available on pages but “listens” to
AT-Internet Server response
So we know exactly if the visits can be properly tracked.
Tag Crawler