Seo camp day montreal tendances de la recherche - complet

Post on 04-Jul-2015

1.550 views 1 download

Transcript of Seo camp day montreal tendances de la recherche - complet

Les grandes tendances de la

recherche

6 octobre 2011

Philippe YONNET

Directeur SEO International

philippe.yonnet@twenga.com

SEO CAMP DAY MONTREAL

L’intervenant

Philippe YONNET, 45 ans

Directeur SEO International de Twenga

Président fondateur de l’association SEO Camp, regroupant les

professionnels du référencement francophones

VP de l’association, en charge de l’organisation du SEO Campus

Ancien directeur internet du groupe Vocatis / Studyrama

Ancien Directeur Général Adjoint de l’agence SEO Aposition (Isobar,

Aegis), l’une des agences du network Iprospect

Ancien Directeur International SEO du groupe web Vivastreet

Twenga en bref

Programme de la première conférence

Première partie

• Les grandes évolutions stratégiques dans le monde des moteurs des recherche

Deuxième partie

• Les critères de classement chez Google, Yahoo! & Bing en 2011

LE RAPPORT DE FORCES

Google vs Search Alliance

La pression concurrentielle s’amplifie

Search Social Mobile Advertising

Evolution des parts de marché en 2011 aux

USA

Bing gagne des parts de marché

Yahoo! en perd, mais cela se

stabilise

Quelle part de marché pour

Bing + Yahoo !

Yahoo! Powered by Bing

aux USA

Les prédictions d’ Hitwise pour janvier 2012 !

Querelle Bing / Google1er février 2011

Querelle Bing / Google1er février 2011

La réponse de Bing :

What we saw in today’s story was a spy-

novelesque stunt to generate extreme

outliers in tail query ranking.

Ce que nous avons vu dans l’histoire parue

aujourd’hui, est une acrobatie digne d’un

roman d’espionnage pour générer des

valeurs aberrantes dans des classements

de type longue traine.

LES DEFIS DE LA RECHERCHE

Les moteurs de recherche évoluent

L’évolution des moteurs depuis quinze ans

1ère Génération 1994-1998

Recherche de correspondance syntaxique

Utilisation des critères on page, de TF*IDF, des données textuelles

Altavista, Excite, Lycos

2e Génération : 1998-2007

Utilisation de données offpage, signaux envoyés par les liens

- Analyse des liens / de la connectivité

- Retour de pertinence à partir des clics sur les SERPs

- Exploitation des anchor texts

Google, Bing, Yahoo!...

3e Génération : 2007…

Analyse sémantique, focus sur les intentions des utilisateurs

- Agrégation de données externes (extraction de données, recherches universelles)

- UI, correction orthographique, raffinement des requêtes, suggestion de requêtes,aidecontextuelle, transfert de contexte,

Inspiré d’une présentation d’Andrei Broder et Ricardo Baeza Yates, Yahoo! Labs SIGIR 2010

Les 7 défis à relever aujourd’hui

1• Améliorer les requêtes des utilisateurs

2• Indexer des objets, des faits et des données

3

• Agréger toujours plus de données externes, répondre directement aux question

4• Intégrer les fonctionnalités issue du graphe social

5• Plus de pages, plus de données, plus vite

6• Lutter contre le « white hat » spam

1. Améliorer les requêtes utilisateurs

Aujourd’hui :

Google Instant (même chose chez Yahoo!)

Suggestions, raffinement des requêtes

Demain :

Interfaces vocales ?

Interactivité plus grande avec l’utilisateur (dialogue ?)

2. Indexer des faits, des données

Aujourd’hui : une page avec des liens bleus. Les liens

correspondent à des pages web

Demain : indexer des objets, des faits, des données

Découper les pages en unités d’information

Indexer des unités d’information, chercher dans ces unités

2. D’une toile reliant des pages à une page

reliant des « entités »

Une page de

Powerset

2. Et pourquoi ne pas créer des pages ad hoc?

Tiré d’une présentation d’Andrei Broder et Ricardo Baeza Yates, Yahoo! Labs SIGIR 2010

3. Agréger toujours plus de données externes

Aujourd’hui : recherche universelle, oneboxes

Videos

Images

News

2. Agréger toujours plus de données externes

Demain : plus de sources, plus de faits, mieux agencées

Interfaces nouvelles !

Google + plugin firefox Wolfram Alpha

3. Agréger aussi des applications tierces

Integration de données tierces

(partenariats)

Wikipedia

Jukebo, IMDb, Greatsong

4. Intégrer les fonctionnalités

issues du graphe social

Données rattachées au

graphe social de

l’utilisateur

4. Intégrer les fonctionnalités

issues du graphe social

Microblogging

5. Deeper, faster : Caffeine 8 juin 2010

Avant

• Crawl en couches

• Les couches sont crawlées différemment

• Evaluation a posteriori des urls à recrawler

Après

• Crawl par petits lots

• Tous les lots sont gérés de la même façon ?

• Comportement prédictif ?

Mais aussi : Mapreduce, BigTable, GFS en version 2

6. Lutter contre le « white hat » spam

Aujourd’hui :

Panda !

http://seofilms.tv

6. Lutter contre le « white hat » spam

Demain : des algos antispam encore plus sophistiqués

SVM (support vector machines)

Réseaux de neurones ?

- => recours massif à l’apprentissage automatique

http://seofilms.tv

Mais aussi

+ de personnalisation

Progrès dans la traduction automatique

Trendonomics !

Progrès sémantique : phrases,

désambiguation

Meilleure compréhension des

intentions

LA GUERRE DU MOBILEExtension du domaine de la lutteGoogle marque des points sur le mobile

Guerre du mobile

Guerre du mobile

Wishful thinking !

Prévisions de Gartner et IDC

Accord Nokia-Microsoft : 11 février 2011

Stephen Elmop, CEO Nokia

Steve Ballmer, CEO Microsoft

GOOGLE EN RETARD SUR

LES OUTILS SOCIAUX ?

Facebook, Twitter…

Les parts de voix aux US

Facebook

Youtube

Myspace

Twitter

Yahoo Answers

L’état des lieux en déc 2010

NOUVEAUX

USAGES

NOUVELLES

INTERFACES

Convergence desktop / mobile => internet

Morgan Stanley, Mobile Internet Report, 2009

Chercher sur un mobile demande un

changement d’interface

Les tablettes tactiles envahissent le marché

Illustration tirée d’un infographics de www.vouchercodes.co.uk

Microsoft : Kinect

Euh… souris + clavier vont-ils devenir has been ?

Google voice, Google goggles

Voice Goggles

Windows 8 : interface tactile & clavier souris

Les téléviseurs connectés & intelligents

Les téléviseurs connectés & intelligents

Les téléviseurs connectés & intelligents

Toshiba : personal TV avec reconnaissance faciale

La fin de l’interface texte – Qwiki :vive la vidéo !

LE WWW EVOLUE

Le web s’appuie sur des technologies datant de 20 à 30 ans !

Le Web devient « has been »

Le cloud : tout se « virtualise »

Non, presque tout, pas le « kitchen sink »

IPv6

2011 : Plus aucun bloc d’IPv4 n’est libre !

IPv6 : 667 millions de milliards d’adresse IP

… par mm2 de la surface de la terre

Vers une IP pour chaque objet connecté

Html 5

Google SPDY et WebP:

pour accélérer la navigation

QUELLE ÉVOLUTION

ATTENDRE POUR LE SEO ?

Quelle évolution pour le SEO ?

Les vieilles recettes ne marchent plus aussi

bien

Les règles du jeu changent, de plus en plus vite

Le SEO demande de plus en plus d’expertise

Regardez au delà de l’horizon

Avoir un coup d’avance !

LES CRITERES DE

CLASSEMENT

DES MOTEURS

DE RECHERCHE

EN 2011CRITERES DE

RECHERCHE

DEUXIEME PARTIE

Un objectif commun => Une hiérarchie de

critères similaires

Tous les moteurs de recherche ont pour objectif de renvoyer des résultats PERTINENTS

La pertinence est une notion subtile, mais quelques grands principes communs existent

Il y’a plus de points communs que de différences entre les algorithmes de moteurs de recherche

Connaître la recette ne fait pas tout

Le « tour de main » du cuisinier compte aussi

Le poids de chaque ingrédient a une importance cruciale

Un simple changement de coefficient (poids) a une influence énorme sur les classements

La question de Matt Cutts ?

Le problème de la pertinence :

Qui doit être premier sur la requête

« Barack Obama » ?

Obama

Le site de la Maison Blanche ?

Wikipedia : bio de B. Obama ?

Site perso B. Obama ?

Les caractéristiques d’un bon critère

• Un bon critère doit vraiment permettre de classer une page en fonction de sa pertinence en tant que réponse à une requête

Pertinent

• Un bon critère doit être facile à calculer. Les valeurs doivent pouvoir être précalculées/préfetchées pour faciliter la génération des pages de résultat

Facile à calculer

• Un critère qui n’est pas facilement manipulable par un spammeur est un critère intéressant

Non sujet au spam

Quels critères choisir ?

1

• Renvoyer des pages qui contiennent les termes de la requête

• Occurrences des termes, recherche « booléenne »

2

• Renvoyer des pages dont le contenu est proche de la requête

• Calcul de similarité (ex : Cosinus de Salton)

3. Quels critères choisir ?

3

• Utiliser les infos fournies par le code HTML pour attribuer des poids différents aux termes contenus dans ces balises

<TITLE> : balise décrivant le contenu de la page

<a>Anchor text</a> : balise décrivant le contenu de la

page

www.mon-domaine.com/produit : mot clé relatif au

contenu

<H1> : élément le plus important de la page

Etc…

La « recette » de l’algo d’Altavista

Altavista

Balises

Similarité

Occurrences

La hiérarchie des balises HTML

Mot clé dans le title,

dans les anchor texts des backlinks

Texte en rapport avec la requête

Mot clé dans l’url (domaine inclus)

Mot clé dans le H1

Balises <B>, <EM> etc…

Balises Alt

Le problème : beaucoup de « bruit »

Sur des requêtes concurrentielles, les 100 premiers résultats ont des résultats très proches sur ces critères

Le premier résultat a donc autant de chances d’être jugé pertinent que le dernier !

Il faut ajouter d’autres critères pour reclasser les résultats dans un ordre plus pertinent

Google ajoute une mesure d’importance de la page : le pagerank

Les signaux renvoyés par les liens

• Mesure de la popularité de la page

• Pagerank et alter…Importance

• La page reçoit-elle des liens de pages sur la même thématique ?

• Topic Sensitive PageRank ? Topicality

• Liens en provenance de sites faisant autorité

• Pagerank biaisés, algo Hilltop ?Autorité

• Pages recevant des liens de sites de confiance

• Pages liées à des pages spammy

• Trusrank (Yahoo!), Spamrank etc….Trust / Spam

La hiérarchie des signaux liés aux backlinks

Importance :

recevoir des liens de sites avec un PR élevé

Qualité :

Diversité / Trust / Non spam

Topicality

On page / off page ?

Critères indépendants de

la requête

Critères dépendant de la

requête

Le distinguo critères off page / on

page n’est pas vraiment pertinent

Lui préférer la notion de :

- Critère dépendant de la requête

- Critère indépendant de la requête

Dans l’algorithme, le poids des

critères dépendants de la requête

est obligatoirement plus élevé

Intéressant à étudier : l’évolution

de l’algorithme de Google avec

l’update MayDay

Algorithme ? NON !

Ce que l’on appelle l’algorithme est en fait une

fonction d’évaluation

Rank = k1xC1 + k2xC2 + k3xC3…

Les coefficients K peuvent eux même être des

fonctions !

Localement, le poids des critères semblera changer

!

Le reverse engineering complet de la formule de

l’algo est pratiquement impossible : on ne peut en

avoir qu’une idée imprécise, et grossière

Le problème du spam

Les critères susceptibles d’être « spammés » , ou de renvoyer

des signaux de mauvaise qualité doivent recevoir un traitement

particulier dans l’algorithme.

Ex :

• beaucoup de mots de clé dans le nom de domaine

=>spammy ?

• beaucoup de mots clés dans les balises alt =>spammy ?

• balises title systématiquement renseignées => spammy ?

• longueur de la balise keyword => spammy ?

La combinaison de critères de ce type permet de détecter des

pages de spam avec un bon taux de reconnaissance

Le Pagerank et ses limites

• Tous les liens ne sont pas égaux

• Le PR est tourné vers le passé de la page

• Les vrais internautes ne vont pas que sur des sites de

confiance

• Le surfer « lassé » ne se téléporte pas n’importe où

=> Utilisation des critères d’usage ?

Les critères d’usage

CTR depuis les SERPS

Taux de rebond depuis les SERPS

Données de la toolbar ?

Requêtes de notoriété ?

Données de search wiki ?

….

Les indicateurs temporels

• Champ IMS => peu fiable

• Age / fraîcheur des pages

• Rythme de renouvellement des pages dans le site

• Rythme de l’évolution du contenu dans la page

• Horodatage de la page

• ….

Les critères de géolocalisation (country)

Utilisation d’un ccTLD

Utilisation d’une IP géolocalisée correctement

Linking en provenance du pays ??

Géo DC : non pour Google ?

Les critères linguistiques

Vocabulaire utilisé spécifique à une langue

Langue déclarée dans l’en-tête et dans les balises : Google y

accorde une confiance limitée

Typologie de pages

Forums, blogs, sites d’avis ?

Critères multiples :

- Templates

- Structure

- indication dans l’url

- Plateforme utilisée

Les nouveaux critères à prendre en compte

Algorithme

Temporalité

Personnalisation REN

Données du graphe social

Query Intent Resolution

Les moteurs cherchent à déterminer quel type d’informations

vous recherchez :

- Requêtes liées à des évènements, des dates, une actualité

- Requêtes marchandes, non marchandes

- Un nom de personne, de société

- Un lieu

Exemple de REN chez Bing

La recherche « géolocalisée »

Deux approches

Reconnaître un nom de lieu dans la requête

Ou partir du principe que la requête demande une géolocalisation

Beaucoup de requêtes transactionnelles appellent une

géolocalisation

Exemple dans Google avec REN

Exemple dans Google avec Géolocalisation

automatique

Je tape seulement

hôtel

Je suis géolocalisé

à Paris par ma

connexion internet

: on me propose

automatiquement

les hôtels à Paris

Les requêtes transactionnelles

Requête dénotant une intention d’achat ou non ?

Il faut distinguer les cas d’internautes cherchant des informations sur un produit, de ceux qui veulent trouver un endroit où l’acheter

Ce sont parfois les mêmes internautes pris à quelques minutes d’intervalle

Exemple des recherches menées chez Yahoo!

Identification de l’intention de l’utilisateur ?

•Trouver un avis sur un produit ou un élément de comparaison (review)

•Acheter un produit au meilleur prix ? (price)

•Résoudre un problème d’utilisation de ce produit (support)

Of Search and Semantics

Patrick Pantel

NSF Symposium on Semantic Knowledge

Discovery, Organization and Use

November 15, 2008

Les requêtes QDF

QDF = Query Deserves Freshness !

« La requête mérite de la fraîcheur »

Fonctionnement révélé dans une interview d’Amit Singhal dans le

NYT.

TSUNAMI !

Exemple dans Google

Requêtes appelant un type déterminé de

résultat

Nouvelle interface de

Google :

Permet de sélectionner

uniquement les réponses

de :- Forums

- Sites d’avis

- Videos…

- [… et demain ?]

Données du graphe social ?

Liens / citations dans Twitter

Liens / citations dans Facebook

Présence dans les digg likes

Notes dans les sites d’avis

Pourrait prendre de plus en plus d’ampleur (=> remplacer la

partie disparue du graphe des liens)

La personnalisation et ses limites

Tous les résultats sont potentiellement

personnalisés

Mais : la pertinence dépend du contexte de la

recherche. Ce contexte inconnu empêche une

personnalisation poussée ET pertinente

Merci !

Si vous avez des questions, n’hésitez pas !

QUELQUES OUTILS UTILES

POUR LE REFERENCEMENT

WEB ANALYTICS

14/

10/

20Pnambi

que Ltd

97

Nous reviendrons en détail sur

Google Analytics dans une

Prochaine formation

Le compte GOOGLE WEBMASTER TOOLS

14/

10/

20Pnambi

que Ltd

98

Si vous n’avez pas encore de compte, une seule priorité : créez

le vôtre !!

Extension Firebug

14/

10/

20

Pnambique Ltd 99

Extension web developer

http://chrispederick.com/work/web-developer/

Permet (entre autres):

- de désactiver le javascript

- de tester les en-têtes

Bloqueur de flash : extension flash blocker

http://flashblock.mozdev.org/

Testeur de redirections : webmaster-hub

http://www.webmaster-hub.com/pages/outils/headers

URL: http://www.studyrama.fr/

HTTP/1.1 302

Date: Sun, 04 Oct 2009 08:32:58 GMT

Server: Apache/1.3.34 (Ubuntu) mod_vhost_online/1.2 mod_fastcgi/2.4.2

mod_log_online/0.1

X-Powered-By: PHP/4.4.9-1.standard

Location: http://www.studyrama.com

Connection: close

Content-Type: text/html

X-Pad: avoid browser bug

Redirection vers :

URL: http://www.studyrama.com/

HTTP/1.1 200 OK

Date: Sun, 04 Oct 2009 08:32:22 GMT

Server: Apache/1.3.34 (Debian) PHP/5.2.9-0.dotdeb.1 with Suhosin-Patch

X-Powered-By: PHP/5.2.9-0.dotdeb.1

Vary: Cookie,Accept-Encoding….

Greasemonkey + nofollow display

Extensions Firefox spécialisées SEO

14/

10/

20

Pnambique Ltd 106

Seo quake

Crawlers à objectif SEO

• Crawler Open Source très puissant, permet de détecter les pb de schéma d’urls, les redirections, la profondeur

Xenu Link Sleuth

• Crawler Open Source orienté SEO

LinkExaminer

Autres crawlers : Gsitemap crawler, Screaming Frog

14/

10/

20

Pnambique Ltd 107

Une sélection d’outils de suivi de

positionnement

Français• Yooda SeeUrank, Myposeo,

Links…

Etranger• AgentWebRanking, Caphyon

Advanced Webranking, SearchMetrics…

14/

10/

20

Pnambique Ltd 108

Bases de mots clés / analyse concurrentielle

Semrush Spyfu

iSpionage

Push2check

Analyse du linking

Open Site

Explorer /

SEOMoz

MajesticSEO

Ahrefs

Testeur de robots.txt

http://www.yooda.com/outils_referencement/robots_txt

.php

Exemple à tester : meilleurtaux.fr

Quelques commandes de google utiles

Site:domaine.com donne la liste des pages du domaine dans le

moteur

Link: domaine.com donne la liste des backlinks (échantillon

dans Google, complète dans Yahoo

Intitle:, inurl:, intext:, inanchor: cherche un mot clé dans le titre,

l’url, le corps du texte

Allintitle:, allinurl:, allinchor:, allintext:

Filetype: renvoie les docuiments avec l’extension indiquée (ex :

pdf, ppt, doc)