Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée

Post on 17-Jun-2015

1.718 views 4 download

description

Présentation faite à l'occasion du SEO Camp Day à Nantes en novembre 2014 par Sébastien Monnier. Explications sur Google Knowledge Vault et les méthodes d'extraction d'entités et de relation par Google.

Transcript of Google Humming et Knoweldge Vault : la recherche sémantique de Google expliquée

Google Hummingbirdle point de vue d’un linguiste

Sébastien MonnierEx- Googler, fondateur de Woptimo

Sommaire1. Approche syntaxique vs Approche sémantique

2. Hummingbird : un nouvel oiseau?

3. Freebase et la notion de concept

4. Extractions des concepts

5. Exemples dans les SERP

6. Conséquences sur le SEO

Au commencement...

Le web, cette masse informeDu texte, des tableaux, des images, des ressources ...

Décentralisés.

Comment structurer l’information pour organiser une recherche?

Indexation des mots“lieu de naissance Jules Verne” = lieu + naissance + Jules + Verne

Bing en 2014

Voila en 2014

Et même les résultats peu probables...

Quelle est la probabilité qu’en cherchant “lieu de naissance Jules Verne”, je recherche des informations sur

La maternité de la clinique Jules Verne...

Approche sémantique

lieu de naissance Jules Verne

Propriété biographique Personnalité

Approche sémantiqueGoogle en 2014

Google Hummingbird : qu’est-ce donc?

Qu’est-ce qu’Hummingbird● Annoncé fin septembre 2013 pour le 15e annniversaire

de Google

● Déjà présent depuis un mois

● Impacte 90% des requêtes

● Aussi important pour l’infrastructure de Google que Google Caffeine

Pourquoi un colibri?

Précis et rapide(... et peut faire marche arrière)

Le web a évolué

La recherche évolue ...

Anticiper les évolutions● Boom du trafic mobile, du trafic connecté et géolocalisé

1 requête = + que des mots

➔ 1 contexte spatial➔ 1 contexte humain➔ 1 contexte d’historique de recherche

➔ Google cherche à comprendre l’intention, plus que l’assemblage des mots dans la requête

Processus de Hummingbird

Moteur: Algorithme général

● Le moteur de recherche de Google est basé sur des algorithmes mathématiques (probabilités)

● Le comportement de ces algorithmes est conditionné par de multiples paramètres linguistiques et statistiques

● Ces paramètres sont calculés grâce à une batterie de “classifiers”

Qu’est-ce qu’un classifier?

Un classifier est un algorithme de catégorisation○ Entrée: requêtes, pages web, domaines...○ Sortie: Nature diverse des informations (texte, score, liste,...)

● Classifier de requête : ○ Ex : requête géolocalisée (bureau Paris), requête navigationelle (Youtube,

Facebook...)

● Classifier de pages web : ○ Ex : bourrage de mots-clés, texte caché, “in-depth article”...

● Classifier d’élements sur une page web :○ Ex : fil d’Ariane, listing d’éléments...

● ... Et de nombreux autres types de classifiers...

Moteur: Algorithme général - Schéma

Requête (“photo de Paris”)➢ Analyse lexicale: “photo”:nom...➢ Analyse syntaxique: groupe nominal➢ Typologie, Intention➢ ...

Page Web➢ PageRank➢ Typologie, Intention➢ Potentiel de spam➢ Auteur de la page➢ ...

DomaineSous-domaineAuteur...

MOTEUR

Résultats

Universal Knowledge Graph

URL 1

URL 2

URL 3

URL X

Algorithme HummingBird

Requête (“photo de Paris”)➢ Analyse lexicale: “photo”:nom...➢ Analyse syntaxique: groupe nominal➢ Typologie, Intention➢ Concepts➢ ...

Page Web➢ PageRank➢ Typologie, Intention➢ Potentiel de spam➢ Auteur de la page➢ Concepts➢ ...

DomaineSous DomaineAuteur...

MOTEUR

Résultats

Universal Knowledge Graph

URL 1

URL 2

URL 3

URL X

Freebase et la notion de concept

Freebase

Freebase est une base de données de connaissances structurées libre et contributive. ● Créée en 2007● Rachetée par Google en 2010

Tout le monde peut contribuer

Notion de Concept➢ Objet concret ou abstrait représenté par une séquence de mots➢ Concepts interconnectés d’après des relations plus ou moins éloignées

Sujet, prédicat, objetLiaison de 2 concepts :

SujetRessource à décrire

ObjetValeur de la propriété

PrédicatType de propriété

Sujet, prédicat, objetLiaison de 2 concepts :

Sujet

Jules Verne

Objet

Nantes

Prédicat

Lieu de naissance

Sujet, prédicat, objetLiaison de 2 concepts :

Sujet

FC Nantes

Objet

Stade de la Beaujoire

Prédicat

Stade

Extraction des concepts

Les données sûres

Ressources modérées et surveillées

+Grande fréquence de reprises de la même information

● Jules Verne</p><p>Né à Nantes le 08/02/1828 ; Mort à Amiens le 24/03/1905

● <td>1828</td><td>Jules Verne est né à Nantes le 8 février 1828 </td>

● 1828 - Naissance (8 février) de Jules Verne à Nantes.

● Jules Verne<br>1828 - 1905 Nationalité : française.<BR>(lieu de naissance : Nantes)

● Jules Verne (Nantes, 1828 - Amiens, 1905)

● <tr><td>Ecrivain</td><td>Naissance</td><tr><tr><td>Jules Verne</td><td>Nantes</td><tr>

Extraction des entités

Indices linguistiques pour repérer la propriété Lieu Naissance

● SUJET “</p><p>Né à” OBJET

● SUJET est né à OBET

● 1828 - Naissance (DATE) de SUJET à OBJET

● SUJET<br>DATE - 1905 Nationalité : française.<BR>(lieu de naissance : OBJET)

● SUJET (OBJET, DATE - Amiens, 1905)

● <tr><td>Ecrivain</td><td>Naissance</td><tr><tr><td>SUJET</td><td>OBJET</td><tr>

Compréhension des données floues

Comment avoir des informations sur quelqu’un/quelque chose qui n’est pas dans une base sémantique?

➔ Extraction des données web en s’inspirant des structures linguistiques identifiées

Exemple

Knowledge Vault

Google a repéré et stocké plus d’un milliard de faits hors bases sémantiques

Concrètement

Concepts et intention de l’utilisateur[Représentation Graphique] --> Paris [ville]

[Marque] Maison de la photographie

[Evénement] Expo photo au Grand Palais

Interaction directe

Informationnel

Navigationnel

Répartition des concepts

Photos/Images[Représentation graphique]

Exposition[Evénement]

Studio photo[Lieu]

Stage photo[Enseignement]

Location studio[Commerce]

Concepts Résultats

Termes manquants :

● L’ajout de “termes manquants” est un vrai indice de l’utilisation d’Hummingbird

Et les 10% non impactés par Hummingbird?

Info présente ici : bravo Google, ... mais

ouch...

Hummingbird : un complément à l’existant?

Quand Google ne trouve pas assez de résultat concluant avec Hummingbird, l’ancien algorithme de recherche de co-occurrence rentre en jeu.

Quelques indices (?):

➢ Snippet de 4 lignes

➢ Pas le “termes manquants”

Qu’est-ce que cela change pour le SEO?

Du mot-clé à l’intention

Oublions la simple “expression-clé”

Pensons à l’intention de l’utilisateur

Analysez les SERPAu-delà de la position, il faut essayer de comprendre

● L’INTENTION de la requête interprétée par Google.● La réponse comprise par Google● La diversité des résultats

● Google ne classe pas 10 pages web en fonction de leur PageRank.

● Google organise la présentation d’informations permettant de répondre, au mieux, au besoin supposé de l’internaute.

Pensez aux mentions

“SuperMutuellePro m’a aidé à comparer des mutuelles”

SUJETEntité : Marque

OBJETEntité : Type de société

PREDICATPropriété : Comparaison

Adieu contenu SEO...● Oubliez les consignes comme :

Je veux un texte de 300 mots optimisés pour mot-clé1, mot-clé2 et mot-clé3

Donnez plutôt :

Je veux du contenu pour une page qui va donner cette information avec 2 arguments, 2 exemples et en citant ses sources.

➔ Soyez concis, clair et factuel➔ Pensez présentation et lisibilité du texte➔ Pensez mots-clés, champ lexical et synonymes dans un 2e temps

Véracité du contenuSi vous possédez du contenu vérifiable (date de naissance/décès de célébrité, adresses d’entreprise, ...), pensez à les mettre à jour.

Google peut extraire votre contenu et les comparer avec sa base de connaissance.

Trop de mauvaises informations = MAUVAIS SIGNAL

Marquage sémantiqueUtilisation des données structurées / microdonnées devient un standard

➔ permet aux moteurs une meilleure compréhension des concepts de votre site

➔ L’absence de données structurées n’entraîne pas de pénalités, mais vous risquez une moins bonne interprétation par Google

1 rue Albert Einstein, Champs-sur-Marne, 77447 Marne-la-Vallée Cedex 2 France Tél : +33 (0)1 83 64 24 11Fax : +33 (0)1 83 64 38 15

Twitter : @woptimo

www.woptimo.com

Merci