Petit déjeuner Search Foresight

24
SEO & LINGUISTIQUE STATISTIQUE

description

SEO et statistique linguistique. Les utilisations des outils de statistique linguistique dans les moteurs de recherche et leur intérêt pour le SEO tf*idf, cosinus de salton...

Transcript of Petit déjeuner Search Foresight

Page 1: Petit déjeuner Search Foresight

SEO & LINGUISTIQUE STATISTIQUE

Page 2: Petit déjeuner Search Foresight

De vieux concepts trop méconnus

Gérard Salton :

- Modèle vectoriel « de Salton », années 70

Page 3: Petit déjeuner Search Foresight

L’analyse en « sac de mots »

Page 4: Petit déjeuner Search Foresight

Tokenization, normalisation, et

élimination des mots vides

Page 5: Petit déjeuner Search Foresight

Lemmatisation et racinisation

« Cosette était laide. Heureuse, elle eût peut-être été jolie. Nous avons déjà esquissé cette petite figure sombre.

Cosette était maigre et blême. »

Racinisation (stemming)

Page 6: Petit déjeuner Search Foresight

TF*IDF => ADIEU LA DENSITE DE MOTS CLES !

Page 7: Petit déjeuner Search Foresight

Nombre d’occurrences du terme dans la page :

Identifier les termes importants :

première idée

Extraction

Extraction

Extraction

Extraction

Poids = 1 Poids = 3

Page 8: Petit déjeuner Search Foresight

Problème : les documents ne contiennent pas le même nombre de mots

Identifier les termes importants :

première idée

Extraction

100 mots

Extraction

Extraction

Extraction

1000 mots

Poids du terme = fréquence = « densité du mot clé »

Critère de poids retenu : nombre d’occurrences

divisé par le nombre de mots du document

Poids = 0,01 Poids = 0,003

Page 9: Petit déjeuner Search Foresight

Problème : les mots n’ont pas la même fréquence d’apparition

dans la langue

Combien de pages contiennent le mot clé internet d’après Google ?

1,5 milliards !

Combien de pages contiennent le mot clé globicéphale d’après Google ?

34000

Page 10: Petit déjeuner Search Foresight

tf*idf

tf = fréquence des termes dans le document

idf = inverse du nombre de documents dans lequel le terme est présent

Vers un meilleur critère de poids

Page 11: Petit déjeuner Search Foresight

Exemple de calcul sans et avec tf*idf

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

Densité 3 pour mille Densité 1 pour mille

Page 12: Petit déjeuner Search Foresight

Exemple de calcul sans et avec tf*idf

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

Index de Google50 milliards de pages(?)

50*10^9 pages

DF[internet] =

1,5 x 10^9 / 50 x 10^9 = 0,03

DF[globicephale] =

3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7

Page 13: Petit déjeuner Search Foresight

Exemple de calcul sans et avec tf*idf

(simplifié)

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

TF*iDF[internet] =

0,003 / 0,03 = 0,1

TF*iDF[globicephale] =

0,001/6,8 x 10^7= 1470!

1470 >>>> 0,1

Page 14: Petit déjeuner Search Foresight

La formule en résumé

Page 15: Petit déjeuner Search Foresight

Pourquoi il faut abandonner

la densité de mots clés

C’est un critère qui n’est plus utilisé par les outils de recherche

Pertinent que pour les requêtes à un seul terme

Induit le « keyword stuffing » facilement détectable

Page 16: Petit déjeuner Search Foresight

Les documents proches dans l’espaceont un contenu similaire

Documents dans un espace à 3 dimensions :

Le principe du Cosinus de Salton

Page 17: Petit déjeuner Search Foresight

Les bases théoriques de l’alignement

sémantique

• L’alignement sémantique consiste à

changer le contenu textuel des pages

pour les « orienter » comme la requête

Alignement sémantique

Page 18: Petit déjeuner Search Foresight

La méthode allemande

• Les SEO allemands appellent tf*idf wdf*idfmais c’est la même chose– Wdf= « within document frequency »

• Objectif : trouver le « poids » idéal pour un mot clé pour être premier sur une requête donnée

Page 19: Petit déjeuner Search Foresight

Analyse avec tf*idf

Page 20: Petit déjeuner Search Foresight

Les limites de l’exercice

• Les poids de type « tf*idf » ne sont que

l’un des signaux exploités par Google

– Si la requête n’est pas concurrentielle : ok

– Si la requête est concurrentielle : travail pas

rentable

• Comment améliorer le poids sans

détériorer la qualité du texte ?

• L’approche en sac de mots est très

dépassée : indexation de syntagmes, de

concepts…

Page 21: Petit déjeuner Search Foresight

Plus intéressant pour

« analyser » son texte : LSI / LDA

• Latent Semantic Indexing

• Analyse en composantes principales sur l’espace vectoriel de Salton

• Met en évidence les corrélations de niveau 2, souvent liées à la proximité sémantique (mais pas toujours)

• Intérêt pour le SEO : bof ! – Très difficile à manipuler pour les novices

– Peut servir pour analyser des textes en masse en vue de retraitements

Page 22: Petit déjeuner Search Foresight

Plus intéressant pour

« analyser » son texte : LSI / LDA

A quoi cela peut-il servir ?

• la comparaison de documents dans l'espace des

concepts

– classification et catégorisation de documents

• la recherche de documents similaires entre

différentes langues

• la recherche de relations entre les termes

– résolution de synonymie et de polysémie

• étant donné une requête, traduire les termes de

la requête dans l'espace des concepts, pour

retrouver des documents liés sémantiquement

– recherche d'information, expansion de requête

– Et analyser ses pages dans le contexte Hummingbird !

Page 23: Petit déjeuner Search Foresight

Conclusion

Page 24: Petit déjeuner Search Foresight

Merci !