Seo camp day montreal tendances de la recherche - complet
-
Upload
priscillegiani -
Category
Technology
-
view
1.550 -
download
1
Transcript of Seo camp day montreal tendances de la recherche - complet
Les grandes tendances de la
recherche
6 octobre 2011
Philippe YONNET
Directeur SEO International
SEO CAMP DAY MONTREAL
L’intervenant
Philippe YONNET, 45 ans
Directeur SEO International de Twenga
Président fondateur de l’association SEO Camp, regroupant les
professionnels du référencement francophones
VP de l’association, en charge de l’organisation du SEO Campus
Ancien directeur internet du groupe Vocatis / Studyrama
Ancien Directeur Général Adjoint de l’agence SEO Aposition (Isobar,
Aegis), l’une des agences du network Iprospect
Ancien Directeur International SEO du groupe web Vivastreet
Twenga en bref
Programme de la première conférence
Première partie
• Les grandes évolutions stratégiques dans le monde des moteurs des recherche
Deuxième partie
• Les critères de classement chez Google, Yahoo! & Bing en 2011
LE RAPPORT DE FORCES
Google vs Search Alliance
La pression concurrentielle s’amplifie
Search Social Mobile Advertising
Evolution des parts de marché en 2011 aux
USA
Bing gagne des parts de marché
Yahoo! en perd, mais cela se
stabilise
Quelle part de marché pour
Bing + Yahoo !
Yahoo! Powered by Bing
aux USA
Les prédictions d’ Hitwise pour janvier 2012 !
Querelle Bing / Google1er février 2011
Querelle Bing / Google1er février 2011
La réponse de Bing :
What we saw in today’s story was a spy-
novelesque stunt to generate extreme
outliers in tail query ranking.
Ce que nous avons vu dans l’histoire parue
aujourd’hui, est une acrobatie digne d’un
roman d’espionnage pour générer des
valeurs aberrantes dans des classements
de type longue traine.
LES DEFIS DE LA RECHERCHE
Les moteurs de recherche évoluent
L’évolution des moteurs depuis quinze ans
1ère Génération 1994-1998
Recherche de correspondance syntaxique
Utilisation des critères on page, de TF*IDF, des données textuelles
Altavista, Excite, Lycos
2e Génération : 1998-2007
Utilisation de données offpage, signaux envoyés par les liens
- Analyse des liens / de la connectivité
- Retour de pertinence à partir des clics sur les SERPs
- Exploitation des anchor texts
Google, Bing, Yahoo!...
3e Génération : 2007…
Analyse sémantique, focus sur les intentions des utilisateurs
- Agrégation de données externes (extraction de données, recherches universelles)
- UI, correction orthographique, raffinement des requêtes, suggestion de requêtes,aidecontextuelle, transfert de contexte,
Inspiré d’une présentation d’Andrei Broder et Ricardo Baeza Yates, Yahoo! Labs SIGIR 2010
Les 7 défis à relever aujourd’hui
1• Améliorer les requêtes des utilisateurs
2• Indexer des objets, des faits et des données
3
• Agréger toujours plus de données externes, répondre directement aux question
4• Intégrer les fonctionnalités issue du graphe social
5• Plus de pages, plus de données, plus vite
6• Lutter contre le « white hat » spam
1. Améliorer les requêtes utilisateurs
Aujourd’hui :
Google Instant (même chose chez Yahoo!)
Suggestions, raffinement des requêtes
Demain :
Interfaces vocales ?
Interactivité plus grande avec l’utilisateur (dialogue ?)
2. Indexer des faits, des données
Aujourd’hui : une page avec des liens bleus. Les liens
correspondent à des pages web
Demain : indexer des objets, des faits, des données
Découper les pages en unités d’information
Indexer des unités d’information, chercher dans ces unités
2. D’une toile reliant des pages à une page
reliant des « entités »
Une page de
Powerset
2. Et pourquoi ne pas créer des pages ad hoc?
Tiré d’une présentation d’Andrei Broder et Ricardo Baeza Yates, Yahoo! Labs SIGIR 2010
3. Agréger toujours plus de données externes
Aujourd’hui : recherche universelle, oneboxes
Videos
Images
News
2. Agréger toujours plus de données externes
Demain : plus de sources, plus de faits, mieux agencées
Interfaces nouvelles !
Google + plugin firefox Wolfram Alpha
3. Agréger aussi des applications tierces
Integration de données tierces
(partenariats)
Wikipedia
Jukebo, IMDb, Greatsong
4. Intégrer les fonctionnalités
issues du graphe social
Données rattachées au
graphe social de
l’utilisateur
4. Intégrer les fonctionnalités
issues du graphe social
Microblogging
5. Deeper, faster : Caffeine 8 juin 2010
Avant
• Crawl en couches
• Les couches sont crawlées différemment
• Evaluation a posteriori des urls à recrawler
Après
• Crawl par petits lots
• Tous les lots sont gérés de la même façon ?
• Comportement prédictif ?
Mais aussi : Mapreduce, BigTable, GFS en version 2
6. Lutter contre le « white hat » spam
Aujourd’hui :
Panda !
http://seofilms.tv
6. Lutter contre le « white hat » spam
Demain : des algos antispam encore plus sophistiqués
SVM (support vector machines)
Réseaux de neurones ?
- => recours massif à l’apprentissage automatique
http://seofilms.tv
Mais aussi
+ de personnalisation
Progrès dans la traduction automatique
Trendonomics !
Progrès sémantique : phrases,
désambiguation
Meilleure compréhension des
intentions
…
LA GUERRE DU MOBILEExtension du domaine de la lutteGoogle marque des points sur le mobile
Guerre du mobile
Guerre du mobile
Wishful thinking !
Prévisions de Gartner et IDC
Accord Nokia-Microsoft : 11 février 2011
Stephen Elmop, CEO Nokia
Steve Ballmer, CEO Microsoft
GOOGLE EN RETARD SUR
LES OUTILS SOCIAUX ?
Facebook, Twitter…
Les parts de voix aux US
Youtube
Myspace
Yahoo Answers
L’état des lieux en déc 2010
NOUVEAUX
USAGES
NOUVELLES
INTERFACES
Convergence desktop / mobile => internet
Morgan Stanley, Mobile Internet Report, 2009
Chercher sur un mobile demande un
changement d’interface
Les tablettes tactiles envahissent le marché
Illustration tirée d’un infographics de www.vouchercodes.co.uk
Microsoft : Kinect
Euh… souris + clavier vont-ils devenir has been ?
Google voice, Google goggles
Voice Goggles
Windows 8 : interface tactile & clavier souris
Les téléviseurs connectés & intelligents
Les téléviseurs connectés & intelligents
Les téléviseurs connectés & intelligents
Toshiba : personal TV avec reconnaissance faciale
La fin de l’interface texte – Qwiki :vive la vidéo !
LE WWW EVOLUE
Le web s’appuie sur des technologies datant de 20 à 30 ans !
Le Web devient « has been »
Le cloud : tout se « virtualise »
Non, presque tout, pas le « kitchen sink »
IPv6
2011 : Plus aucun bloc d’IPv4 n’est libre !
IPv6 : 667 millions de milliards d’adresse IP
… par mm2 de la surface de la terre
Vers une IP pour chaque objet connecté
Html 5
Google SPDY et WebP:
pour accélérer la navigation
QUELLE ÉVOLUTION
ATTENDRE POUR LE SEO ?
Quelle évolution pour le SEO ?
Les vieilles recettes ne marchent plus aussi
bien
Les règles du jeu changent, de plus en plus vite
Le SEO demande de plus en plus d’expertise
Regardez au delà de l’horizon
Avoir un coup d’avance !
LES CRITERES DE
CLASSEMENT
DES MOTEURS
DE RECHERCHE
EN 2011CRITERES DE
RECHERCHE
DEUXIEME PARTIE
Un objectif commun => Une hiérarchie de
critères similaires
Tous les moteurs de recherche ont pour objectif de renvoyer des résultats PERTINENTS
La pertinence est une notion subtile, mais quelques grands principes communs existent
Il y’a plus de points communs que de différences entre les algorithmes de moteurs de recherche
Connaître la recette ne fait pas tout
Le « tour de main » du cuisinier compte aussi
Le poids de chaque ingrédient a une importance cruciale
Un simple changement de coefficient (poids) a une influence énorme sur les classements
La question de Matt Cutts ?
Le problème de la pertinence :
Qui doit être premier sur la requête
« Barack Obama » ?
Obama
Le site de la Maison Blanche ?
Wikipedia : bio de B. Obama ?
Site perso B. Obama ?
Les caractéristiques d’un bon critère
• Un bon critère doit vraiment permettre de classer une page en fonction de sa pertinence en tant que réponse à une requête
Pertinent
• Un bon critère doit être facile à calculer. Les valeurs doivent pouvoir être précalculées/préfetchées pour faciliter la génération des pages de résultat
Facile à calculer
• Un critère qui n’est pas facilement manipulable par un spammeur est un critère intéressant
Non sujet au spam
Quels critères choisir ?
1
• Renvoyer des pages qui contiennent les termes de la requête
• Occurrences des termes, recherche « booléenne »
2
• Renvoyer des pages dont le contenu est proche de la requête
• Calcul de similarité (ex : Cosinus de Salton)
3. Quels critères choisir ?
3
• Utiliser les infos fournies par le code HTML pour attribuer des poids différents aux termes contenus dans ces balises
<TITLE> : balise décrivant le contenu de la page
<a>Anchor text</a> : balise décrivant le contenu de la
page
www.mon-domaine.com/produit : mot clé relatif au
contenu
<H1> : élément le plus important de la page
Etc…
La « recette » de l’algo d’Altavista
Altavista
Balises
Similarité
Occurrences
La hiérarchie des balises HTML
Mot clé dans le title,
dans les anchor texts des backlinks
Texte en rapport avec la requête
Mot clé dans l’url (domaine inclus)
Mot clé dans le H1
Balises <B>, <EM> etc…
Balises Alt
Le problème : beaucoup de « bruit »
Sur des requêtes concurrentielles, les 100 premiers résultats ont des résultats très proches sur ces critères
Le premier résultat a donc autant de chances d’être jugé pertinent que le dernier !
Il faut ajouter d’autres critères pour reclasser les résultats dans un ordre plus pertinent
Google ajoute une mesure d’importance de la page : le pagerank
Les signaux renvoyés par les liens
• Mesure de la popularité de la page
• Pagerank et alter…Importance
• La page reçoit-elle des liens de pages sur la même thématique ?
• Topic Sensitive PageRank ? Topicality
• Liens en provenance de sites faisant autorité
• Pagerank biaisés, algo Hilltop ?Autorité
• Pages recevant des liens de sites de confiance
• Pages liées à des pages spammy
• Trusrank (Yahoo!), Spamrank etc….Trust / Spam
La hiérarchie des signaux liés aux backlinks
Importance :
recevoir des liens de sites avec un PR élevé
Qualité :
Diversité / Trust / Non spam
Topicality
On page / off page ?
Critères indépendants de
la requête
Critères dépendant de la
requête
Le distinguo critères off page / on
page n’est pas vraiment pertinent
Lui préférer la notion de :
- Critère dépendant de la requête
- Critère indépendant de la requête
Dans l’algorithme, le poids des
critères dépendants de la requête
est obligatoirement plus élevé
Intéressant à étudier : l’évolution
de l’algorithme de Google avec
l’update MayDay
Algorithme ? NON !
Ce que l’on appelle l’algorithme est en fait une
fonction d’évaluation
Rank = k1xC1 + k2xC2 + k3xC3…
Les coefficients K peuvent eux même être des
fonctions !
Localement, le poids des critères semblera changer
!
Le reverse engineering complet de la formule de
l’algo est pratiquement impossible : on ne peut en
avoir qu’une idée imprécise, et grossière
Le problème du spam
Les critères susceptibles d’être « spammés » , ou de renvoyer
des signaux de mauvaise qualité doivent recevoir un traitement
particulier dans l’algorithme.
Ex :
• beaucoup de mots de clé dans le nom de domaine
=>spammy ?
• beaucoup de mots clés dans les balises alt =>spammy ?
• balises title systématiquement renseignées => spammy ?
• longueur de la balise keyword => spammy ?
La combinaison de critères de ce type permet de détecter des
pages de spam avec un bon taux de reconnaissance
Le Pagerank et ses limites
• Tous les liens ne sont pas égaux
• Le PR est tourné vers le passé de la page
• Les vrais internautes ne vont pas que sur des sites de
confiance
• Le surfer « lassé » ne se téléporte pas n’importe où
=> Utilisation des critères d’usage ?
Les critères d’usage
CTR depuis les SERPS
Taux de rebond depuis les SERPS
Données de la toolbar ?
Requêtes de notoriété ?
Données de search wiki ?
….
Les indicateurs temporels
• Champ IMS => peu fiable
• Age / fraîcheur des pages
• Rythme de renouvellement des pages dans le site
• Rythme de l’évolution du contenu dans la page
• Horodatage de la page
• ….
Les critères de géolocalisation (country)
Utilisation d’un ccTLD
Utilisation d’une IP géolocalisée correctement
Linking en provenance du pays ??
Géo DC : non pour Google ?
Les critères linguistiques
Vocabulaire utilisé spécifique à une langue
Langue déclarée dans l’en-tête et dans les balises : Google y
accorde une confiance limitée
Typologie de pages
Forums, blogs, sites d’avis ?
Critères multiples :
- Templates
- Structure
- indication dans l’url
- Plateforme utilisée
Les nouveaux critères à prendre en compte
Algorithme
Temporalité
Personnalisation REN
Données du graphe social
Query Intent Resolution
Les moteurs cherchent à déterminer quel type d’informations
vous recherchez :
- Requêtes liées à des évènements, des dates, une actualité
- Requêtes marchandes, non marchandes
- Un nom de personne, de société
- Un lieu
Exemple de REN chez Bing
La recherche « géolocalisée »
Deux approches
Reconnaître un nom de lieu dans la requête
Ou partir du principe que la requête demande une géolocalisation
Beaucoup de requêtes transactionnelles appellent une
géolocalisation
Exemple dans Google avec REN
Exemple dans Google avec Géolocalisation
automatique
Je tape seulement
hôtel
Je suis géolocalisé
à Paris par ma
connexion internet
: on me propose
automatiquement
les hôtels à Paris
Les requêtes transactionnelles
Requête dénotant une intention d’achat ou non ?
Il faut distinguer les cas d’internautes cherchant des informations sur un produit, de ceux qui veulent trouver un endroit où l’acheter
Ce sont parfois les mêmes internautes pris à quelques minutes d’intervalle
Exemple des recherches menées chez Yahoo!
Identification de l’intention de l’utilisateur ?
•Trouver un avis sur un produit ou un élément de comparaison (review)
•Acheter un produit au meilleur prix ? (price)
•Résoudre un problème d’utilisation de ce produit (support)
Of Search and Semantics
Patrick Pantel
NSF Symposium on Semantic Knowledge
Discovery, Organization and Use
November 15, 2008
Exemple avec l’outil « OCI » de Bing
http://adlab.microsoft.com/Online-Commercial-Intention/Default.aspx
Les requêtes QDF
QDF = Query Deserves Freshness !
« La requête mérite de la fraîcheur »
Fonctionnement révélé dans une interview d’Amit Singhal dans le
NYT.
TSUNAMI !
Exemple dans Google
Requêtes appelant un type déterminé de
résultat
Nouvelle interface de
Google :
Permet de sélectionner
uniquement les réponses
de :- Forums
- Sites d’avis
- Videos…
- [… et demain ?]
Données du graphe social ?
Liens / citations dans Twitter
Liens / citations dans Facebook
Présence dans les digg likes
Notes dans les sites d’avis
…
Pourrait prendre de plus en plus d’ampleur (=> remplacer la
partie disparue du graphe des liens)
La personnalisation et ses limites
Tous les résultats sont potentiellement
personnalisés
Mais : la pertinence dépend du contexte de la
recherche. Ce contexte inconnu empêche une
personnalisation poussée ET pertinente
Merci !
Si vous avez des questions, n’hésitez pas !
QUELQUES OUTILS UTILES
POUR LE REFERENCEMENT
WEB ANALYTICS
14/
10/
20Pnambi
que Ltd
97
Nous reviendrons en détail sur
Google Analytics dans une
Prochaine formation
Le compte GOOGLE WEBMASTER TOOLS
14/
10/
20Pnambi
que Ltd
98
Si vous n’avez pas encore de compte, une seule priorité : créez
le vôtre !!
Extension Firebug
14/
10/
20
Pnambique Ltd 99
Extension web developer
http://chrispederick.com/work/web-developer/
Permet (entre autres):
- de désactiver le javascript
- de tester les en-têtes
Extension user agent switcher
http://chrispederick.com/work/user-agent-switcher/
Objectif : détecter le
cloaking sur user
agent
Bloqueur de flash : extension flash blocker
http://flashblock.mozdev.org/
Testeur de redirections : webmaster-hub
http://www.webmaster-hub.com/pages/outils/headers
URL: http://www.studyrama.fr/
HTTP/1.1 302
Date: Sun, 04 Oct 2009 08:32:58 GMT
Server: Apache/1.3.34 (Ubuntu) mod_vhost_online/1.2 mod_fastcgi/2.4.2
mod_log_online/0.1
X-Powered-By: PHP/4.4.9-1.standard
Location: http://www.studyrama.com
Connection: close
Content-Type: text/html
X-Pad: avoid browser bug
Redirection vers :
URL: http://www.studyrama.com/
HTTP/1.1 200 OK
Date: Sun, 04 Oct 2009 08:32:22 GMT
Server: Apache/1.3.34 (Debian) PHP/5.2.9-0.dotdeb.1 with Suhosin-Patch
X-Powered-By: PHP/5.2.9-0.dotdeb.1
Vary: Cookie,Accept-Encoding….
Greasemonkey + nofollow display
Greasemonkey + nofollow display + noindex
alerter + nofollow avec meta
http://www.greasespot.net/
http://yoast.com/tools/seo/greasemonkey/nofollow-display/
http://userscripts.org/scripts/show/41289
http://www.poradnik-
webmastera.com/projekty/nofollow_script/nofollowscript.user.j
s
Extensions Firefox spécialisées SEO
14/
10/
20
Pnambique Ltd 106
Seo quake
Crawlers à objectif SEO
• Crawler Open Source très puissant, permet de détecter les pb de schéma d’urls, les redirections, la profondeur
Xenu Link Sleuth
• Crawler Open Source orienté SEO
LinkExaminer
Autres crawlers : Gsitemap crawler, Screaming Frog
14/
10/
20
Pnambique Ltd 107
Une sélection d’outils de suivi de
positionnement
Français• Yooda SeeUrank, Myposeo,
Links…
Etranger• AgentWebRanking, Caphyon
Advanced Webranking, SearchMetrics…
14/
10/
20
Pnambique Ltd 108
Bases de mots clés / analyse concurrentielle
Semrush Spyfu
iSpionage
Push2check
Analyse du linking
Open Site
Explorer /
SEOMoz
MajesticSEO
Ahrefs
Testeur de robots.txt
http://www.yooda.com/outils_referencement/robots_txt
.php
Exemple à tester : meilleurtaux.fr
Quelques commandes de google utiles
Site:domaine.com donne la liste des pages du domaine dans le
moteur
Link: domaine.com donne la liste des backlinks (échantillon
dans Google, complète dans Yahoo
Intitle:, inurl:, intext:, inanchor: cherche un mot clé dans le titre,
l’url, le corps du texte
Allintitle:, allinurl:, allinchor:, allintext:
Filetype: renvoie les docuiments avec l’extension indiquée (ex :
pdf, ppt, doc)