Conf 2 VWD - S PEYRONNET - Pagerank thématique

27
UTILISER LE PAGERANK THÉMATIQUE POUR FAIRE UN RÉSEAU DE SITES PERFORMANT SYLVAIN PEYRONNET @SPEYRONNET

Transcript of Conf 2 VWD - S PEYRONNET - Pagerank thématique

Page 1: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

UTILISER LE PAGERANK THÉMATIQUE POUR FAIRE UN

RÉSEAU DE SITES PERFORMANT

!

SYLVAIN PEYRONNET @SPEYRONNET

Page 2: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

QUI SUIS-JE ?

Sylvain Peyronnet Chief @ ix-labs Chief @ La Machine Chief scientist @ Qwant Prof @ Université de Caen (on leave)

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Ghost writer des slides : Guillaume Peyronnet https://freres.peyronnet.eu/

Page 3: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?

algo de classement

web

classement

index

analyse de la pertinence

analyse de l’importance

classementclassement

contenu des pages

liens entre les pages

spider

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 4: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?

algo de classement

web

classement

index

analyse de la pertinence

analyse de l’importance

requête de l’utilisateur

classementclassement

contenu des pages

liens entre les pages

spider

expansion de requête

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 5: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

CONSTRUIRE LE CLASSEMENT

Pertinence pour R

Classement global

On construit le classement en choisissant les pages les plus importantes parmi celles qui sont pertinentes

+-

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 6: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

algo de classement

web

classement

index

analyse de la pertinence

analyse de l’importance

requête de l’utilisateur

classementclassement

contenu des pages

liens entre les pages

spider

expansion de requête

QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

La force des réseaux de sites basés sur le

pagerank thématique vient de là

Page 7: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LE MOTEUR ANALYSE LE CONTENU DES PAGES12" SMX$Paris$8$et$9$JUIN$2015$

Cherchons$le$bon$vocabulaire$

petit!

être!

perdre!

forêt!

Le! petit! était! perdu!

dans! la! forêt!

Un texte est un vecteur

?! ?! ?! ?! ?! ?! ?!

petit!

perdre!

être! forêt!

Un texte est un vecteur

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 8: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LE MOTEUR ANALYSE LE CONTENU DES PAGES

13" SMX$Paris$8$et$9$JUIN$2015$

Cherchons$le$bon$vocabulaire$

Poids pour le vecteur : la

TF.IDF

?! ?! ?! ?! ?! ?! ?!

petit!

perdre!

être! forêt!

Poids d’un terme : TF-IDF14" SMX$Paris$8$et$9$JUIN$2015$

Cherchons$le$bon$vocabulaire$

d1

d2 θ

d1

d2

La similarité est définie par le cosinus de l’angle

proximité sémantique : cosinus de l’angle

Clustering pour être rapide

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 9: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LE MOTEUR DETERMINE LA POPULARITÉ

Initialisation : !!Calcul itératif : !!!

Le PageRank

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 10: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LE MOTEUR DETERMINE LA POPULARITÉ

Considérons le comportement suivant d’un internaute :

• Tirer une page web au hasard

• Tirer un nombre p entre 0 et 1

• Si p > c, alors choisir une page au hasard

• Si p < c choisir au hasard un lien de la page web et aller à la page liée par ce lien (si pas de lien, GOTO 1)

La probabilité que cet internaute se trouve en une page donnée à un moment donné est égale au PR de cette page.

En conséquence, fort PR = forte probabilité d’être visité

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 11: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LE PAGERANK THÉMATIQUE FONCTIONNEMENT DE LA MÉTHODE

ODP

16 thématiques

PR thématique = vecteur de

dimension 16

Calcul du PR composante par composante (sujet par sujet)

T1 T2 ... T15 T16

HORS LIGNE

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Taher Haveliwala - 2003

Page 12: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LE PAGERANK THÉMATIQUE FONCTIONNEMENT DE LA MÉTHODE

requête q

On cherche les sujets pour q

EN LIGNE

théma x théma y théma z

Combinaison des PR pour

x, y, z

Classement

SERPs

On combine les thématiques pour q pour construire

un q-PRComme le PR usuel

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 13: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

POPULARITÉ : À RETENIR

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Un lien à une valeur proportionnelle à la

popularité de la source ET à la

proximité thématique entre les

pages

La popularité dépend des structures de liens : il faut faire

« cycler » le surfeur aléatoire

Il faut rester « naturel », en

optimisant on dévie du comportement

statistique et on peut être pénalisé

Page 14: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LES RÉSEAUX, LA RÉPONSE À TOUT ?

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

casino

poker

argent

hôtel

voiture de luxe

voyage

transport

las vegas

Un réseau c’est plus que la simple continuité thématique !

Page 15: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LE BON RÉSEAU ET LE MAUVAIS RÉSEAU

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Quand on monte un réseau de sites, on essaie d'être naturel !• C'est toujours dommage de subir une pénalité sur un réseau complet… surtout quand les sites sont propres

• On essaie d'optimiser le PageRank du réseau, tout en restant raisonnable : Google devrait le comprendre (et passer à côté)

• On pense à la continuité thématique

Page 16: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

LE BON RÉSEAU

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Quelle structure de liens adopter pour éviter d’être détecté ? !Etre furtif, c’est possible si on est prêt à gagner moins de PR : !•Graphe aléatoire de Barabási - Albert • Graphe Small World (Beta model ou kleinberg)

Avant de penser aux optimisations, on pense à la robustesse vis à vis de Google !

Page 17: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

IDÉE : GRAPHE ALÉATOIRE NATUREL

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Un graphe naturel pour représenter le web est !1. Orienté : chaque lien a un sens u→v ≠ v→u

2. Petit monde :

• Petit diamètre : Il y a un chemin court entre presque toutes les paires de pages

• Routage glouton efficace : On peut trouver un chemin court avec une connaissance locale du graphe

Page 18: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

IDÉE : GRAPHE ALÉATOIRE NATUREL

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Un graphe naturel pour représenter le web est !1. Orienté : chaque lien a un sens u→v ≠ v→u!

2. Petit monde : !

• Clusterisé: !

Si et alors la proba que est grandeu→v ou

v→uv→w ou

w→u( ( u→w ou

w→u( ( ( (

Page 19: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

GRAPHE DE BARABASI - ALBERT

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

• Les noeuds sont ajoutés 1 par 1

• La probabilité Pi qu’un nouveau noeud soit relié à i est :

« Plus j’ai de liens, plus j’attire de liens ! »

degré de i

somme des degrés de tous les noeuds

Page 20: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

IL EXISTE DES OUTILS POUR GÉNÉRER LES GRAPHES

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 21: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

IL EXISTE DES OUTILS POUR GÉNÉRER LES GRAPHES

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Page 22: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Les thématiques doivent être proche Votre plus gros site

est celui a plus fort PR du réseau

Tous les sites ne sont pas à vous !

Page 23: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU

Les thématiques doivent être proche

Utiliser Salton + TF.IDF

Utiliser les TF thématiques de Majestic

Utiliser un mind mapping (type cocooning^^) + aide à la rédaction

Faire à la main la proximité thématique

Page 24: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Votre plus gros site est celui a plus fort

PR du réseau

Car c’est celui qui sera le plus facile à positionner

Tous les sites ne sont pas à vous !

Trop de travail !

Plus de risques de se faire détecter par Google

Un réseau = un mix de sites perso et extérieurs, bien linkés

Page 25: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

ACCROCHE DU RÉSEAU À L’EXTÉRIEUR

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Il faut obtenir des liens depuis le web vers votre réseau !1. Thématiser au maximum !2. Privilégier peu de liens d’accroche, mais avec fort Trust !3. Plus un site du réseau à un fort PR interne au réseau plus il doit y avoir de liens vers lui

Page 26: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

BONUS DU « PENSER RÉSEAU »

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

Avec le réseau vous maitrisez tout ! !Les problèmes de conversion disparaissent en partie car vous pouvez avoir une stratégie de conversion sur le réseau, et donc spécialiser les sites tout en gardant un entonnoir de conversion efficace. !Un site d’info sur un produit, un site sur la réglementation, un site sur les utilisateurs, etc. Puis un site de vente au centre du réseau !

Page 27: Conf 2 VWD - S PEYRONNET -  Pagerank thématique

CONCLUSION

#VWD                                Sylvain  Peyronnet  -­‐  @speyronnet

A vous de jouer !