Graphes du Web, Mesures d’importance à la PageRank

60
Université Montpellier II Université Montpellier II - LIRMM - LIRMM 1 /33 /33 Graphes du Web, Graphes du Web, Mesures d’importance Mesures d’importance à la à la PageRank PageRank Soutenance de thèse de Soutenance de thèse de Fabien Mathieu Fabien Mathieu sous la direction de Michel Habib sous la direction de Michel Habib et co-encadrée par Laurent Viennot et co-encadrée par Laurent Viennot À mon À mon père père

description

Graphes du Web, Mesures d’importance à la PageRank. Soutenance de thèse de Fabien Mathieu sous la direction de Michel Habib et co-encadrée par Laurent Viennot. À mon père. Parcours. Parcours entre maths et physique DEA ATIAM Tronc commun DEA algo - PowerPoint PPT Presentation

Transcript of Graphes du Web, Mesures d’importance à la PageRank

Page 1: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 11/33/33

Graphes du Web,Graphes du Web,Mesures d’importanceMesures d’importance

à laà la PageRank PageRankSoutenance de thèse deSoutenance de thèse de

Fabien MathieuFabien Mathieu

sous la direction de Michel Habibsous la direction de Michel Habib

et co-encadrée par Laurent Viennotet co-encadrée par Laurent Viennot

À mon À mon pèrepère

Page 2: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 22/33/33

ParcoursParcoursParcours entre maths et physiqueParcours entre maths et physique

DEA ATIAMDEA ATIAM

Tronc commun DEA algoTronc commun DEA algo

Stage sur la téléphonie mobile (Daniel Krob)Stage sur la téléphonie mobile (Daniel Krob)

Une idée : les Une idée : les points chaudspoints chauds du Web du Web

Rencontre avec Laurent ViennotRencontre avec Laurent Viennot

Thèse et monitorat avec Michel HabibThèse et monitorat avec Michel Habib

3 bureaux (LIAFA, LIRMM, INRIA)3 bureaux (LIAFA, LIRMM, INRIA)

Page 3: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 33/33/33

Prélude :Prélude :représenter un graphe du Webreprésenter un graphe du Web

Graphe du Web = pages + hyperliensGraphe du Web = pages + hyperliens Matrice d’adjacence d’un graphe du Web :Matrice d’adjacence d’un graphe du Web :

Visuellement, c’est joli…Visuellement, c’est joli… ……et les sites apparaissent clairementet les sites apparaissent clairement

Page 4: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

4/33

Exemple

Page 5: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 55/33/33

Plan du mémoirePlan du mémoire

Structures du WebStructures du Web– Qu’est-ce que le Web ?Qu’est-ce que le Web ?– Crawlers, moteurs, tailles du WebCrawlers, moteurs, tailles du Web– Graphes et structures du WebGraphes et structures du Web

Les PageRanksLes PageRanks– Chaînes de MarkovChaînes de Markov– PageRank : définitions, interprétations, limitesPageRank : définitions, interprétations, limites– BackRank : une amélioration possible de PageRankBackRank : une amélioration possible de PageRank– Décomposition fine du PageRank :Décomposition fine du PageRank : FlowRank et BlowRankFlowRank et BlowRank

Page 6: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 66/33/33

Plan de l’exposéPlan de l’exposé

PageRankPageRank–Systèmes de classementSystèmes de classement–Principe du modèlePrincipe du modèle–Facteur d’amortissementFacteur d’amortissement–Problème des feuillesProblème des feuilles

BackRankBackRank

PageRankPageRank BackRankBackRank

–MotivationMotivation–Théorie : Back irréversibleThéorie : Back irréversible–ExpérimentationsExpérimentations

PageRankPageRank BackRankBackRank

Page 7: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

7/33

PageRank

Théorie & pratique

Page 8: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 88/33/33

S’orienter dans le WebS’orienter dans le Web

Web : masse «  infinie » d’informationWeb : masse «  infinie » d’information Besoin d’outils de rechercheBesoin d’outils de recherche

– Manuels : annuairesManuels : annuaires

!! capacité de traitement limité capacité de traitement limité– Automatiques : moteursAutomatiques : moteurs

!! nécessité de trier les données nécessité de trier les données

Page 9: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 99/33/33

Méthodes de triMéthodes de tri

Importance sémantique : pertinenceImportance sémantique : pertinence– Indexation Indexation – Basée sur une requête (mots-clés)Basée sur une requête (mots-clés)– Manipulable (spamming : abus de mots-clés)Manipulable (spamming : abus de mots-clés)

Importance structurelle : PR, HITS…Importance structurelle : PR, HITS…– Basée sur les hyperliensBasée sur les hyperliens– Indépendante du contenuIndépendante du contenu

Méthodes hybrides : TSPR , OPIC…Méthodes hybrides : TSPR , OPIC… Autres ? Problème du secret industrielAutres ? Problème du secret industriel

Page 10: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1010/33/33

PageRankPageRank

Introduit en 1998 avec Introduit en 1998 avec GoogleGoogle L’importance L’importance PP d’une page vient de d’une page vient de

l’importance des pages qui la réfèrentl’importance des pages qui la réfèrent Si Si G=(V,E)G=(V,E) est un graphe du Web est un graphe du Web

((VV : pages Web ; : pages Web ; EE : hyperliens) : hyperliens)

Page 11: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1111/33/33

Une double interprétationUne double interprétation

Distribution d’importance (flot)Distribution d’importance (flot)– Chaque page possède une certaineChaque page possède une certaineimportance importance P(v)P(v)– L’importance est diffusée par les hyperliensL’importance est diffusée par les hyperliens

Modèle du surfeur aléatoireModèle du surfeur aléatoire– Le surfeur aléatoire parcourt sans cesse le Web Le surfeur aléatoire parcourt sans cesse le Web

en cliquant au hasarden cliquant au hasard– En choisissant , En choisissant , PP est la probabilité de est la probabilité de

présence asymptotique (si elle existe)présence asymptotique (si elle existe)

PageRankPageRankd’une page d’une page vv

PageRank des PageRank des pages qui pages qui

pointent sur pointent sur vv

Page 12: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1212/33/33

Cas de convergence : théorème de Cas de convergence : théorème de Perron-Frobenius (1912)Perron-Frobenius (1912)

On suppose On suppose GG fortement connexe apériodique fortement connexe apériodique Soit Soit AA la matrice stochastique associée la matrice stochastique associée

Alors Alors PP est solution de est solution de Convergence vers le point fixe Convergence vers le point fixe PP par itérations successives : par itérations successives :

Interprétation : chaîne de MarkovInterprétation : chaîne de Markov

Page 13: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1313/33/33

Limites du modèle idéalLimites du modèle idéalde PageRank ; facteur de PageRank ; facteur zapzap

GG n’est jamais fortement connexe n’est jamais fortement connexe La convergence du calcul est très lenteLa convergence du calcul est très lente Modélisation : un surfeur réel ne fait pas que Modélisation : un surfeur réel ne fait pas que

suivre des lienssuivre des liens

!! Introduction d’un Introduction d’un zapzap : possibilité de ne pas : possibilité de ne pas suivre un hyperlien et de suivre un hyperlien et de zapperzapper

Page 14: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1414/33/33

Équation d’amortissementÉquation d’amortissement

Propagation amortie par Propagation amortie par dd ( (d=0,85)d=0,85) ZZ est la distribution du est la distribution du zapzap est la probabilité effective de zapperest la probabilité effective de zapper ZZ est une source de flot est une source de flot

Page 15: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1515/33/33

Propagation du PageRankPropagation du PageRankavec avec zapzap

PageRank amortiPageRank amorti

des pages quides pages qui

pointent sur pointent sur vv

PageRankPageRank

de de zapzap

PageRankPageRank

d’une page d’une page vv

Page 16: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1616/33/33

Les pages sans lien (feuilles)Les pages sans lien (feuilles)

Non gérées par le modèle, même avec Non gérées par le modèle, même avec zapzap Processus mal définiProcessus mal défini Pertes de flotPertes de flot

!! nécessité de nécessité de– Soit renormaliserSoit renormaliser– Soit travailler à source constante de flotSoit travailler à source constante de flot

Le Le zapzap effectif est mal contrôlé : effectif est mal contrôlé :

si on veut , alors si on veut , alors >(1-d)>(1-d)

Page 17: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1717/33/33

Les pages sans lien (suite) :Les pages sans lien (suite) :problème du « remplumage »problème du « remplumage »

Les feuilles ne servent à rienLes feuilles ne servent à rien On les enlève donc pour le calcul…On les enlève donc pour le calcul… … … et on les remet après convergenceet on les remet après convergence Problème :Problème :

PageRank sur le graphe effeuilléPageRank sur le graphe effeuillé

PageRank sur le graphe entierPageRank sur le graphe entier

Page 18: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

18/33

BackRank

Prise en charge des

pages sans lien

Page 19: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 1919/33/33

Modéliser la touche Modéliser la touche Back :Back :Concept et limitationsConcept et limitations

On veut pouvoir revenir en arrière dans le On veut pouvoir revenir en arrière dans le processus stochastiqueprocessus stochastique

Si Si PageRankPageRank modélise un surfeur réel, la modélise un surfeur réel, la touche touche BackBack est une amélioration est une amélioration

La touche La touche BackBack gère les pages sans lien gère les pages sans lien On travaille maintenant sur un processus On travaille maintenant sur un processus

de Markov avec mémoirede Markov avec mémoire Problème de la taille sur des gros graphesProblème de la taille sur des gros graphes

Page 20: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2020/33/33

Notre modèle : Notre modèle : BackBack irréversible irréversible

La touche La touche BackBack a l’importance d’un lien a l’importance d’un lien

Mémoire minimale : dernière page visitéeMémoire minimale : dernière page visitée

2 2 BackBack ne peuvent être consécutifs ne peuvent être consécutifs

Page 21: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2121/33/33

FormalisationFormalisation

PPhlhl(q,p)(q,p) est la probabilité d’être en est la probabilité d’être en pp en venant de en venant de qq par un hyperlien par un hyperlien

PPibib(p)(p) est la probabilité d’être en est la probabilité d’être en pp grâce à la grâce à la touche touche BackBack (historique vierge) (historique vierge)

PPhlhl(q,p)(q,p) ne dépend pas du sommet d’arrivée ne dépend pas du sommet d’arrivée pp, et , et sera appelé sera appelé PPhlhl(q)(q)

Page 22: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2222/33/33

Équations du Équations du BackBack irréversible irréversible

Page 23: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2323/33/33

Incorporation du Incorporation du zapzap

Le zap est facile à prendre en compte s’il Le zap est facile à prendre en compte s’il désactive la touche désactive la touche BackBack

Attention si Attention si ZZ contient des feuilles contient des feuilles

Page 24: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2424/33/33

Algorithme pratique : Algorithme pratique : BackRankBackRank

Propagation/ConvergencePropagation/Convergence

ReconstructionReconstruction

Page 25: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2525/33/33

Propagation de BackRankPropagation de BackRank

PPhlhl amorti amorti

des pages quides pages qui

pointent sur pointent sur vv

PageRankPageRank

de de zapzap

PPhlhl

d’une page d’une page vv

Back-attractivité de Back-attractivité de vv

Page 26: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2626/33/33

Importance de Importance de

Donne un classement différentDonne un classement différent

!! modèle plus réaliste ? modèle plus réaliste ? Les feuilles n’ont pas de Les feuilles n’ont pas de PPhlhl…… ……mais le PageRank obtenu est surmais le PageRank obtenu est sur

GG entier ! entier ! Convergence plus rapide (Gauss-Seidel)Convergence plus rapide (Gauss-Seidel)

Page 27: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2727/33/33

Résultats expérimentauxRésultats expérimentaux

Graphes de travailGraphes de travail– crawls de .fr, .uk, .it et Web entre 2001 et 2004crawls de .fr, .uk, .it et Web entre 2001 et 2004– 8.1, 18.5, 41.3 et 118 millions de sommets8.1, 18.5, 41.3 et 118 millions de sommets

PageRankPageRank vs vs BackRankBackRank Zap : Zap :

– d=0,85d=0,85– Distribution uniforme sur les pages avec lienDistribution uniforme sur les pages avec lien

Page 28: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2828/33/33

RankRank BackRankBackRank PageRankPageRank11 www.yahoo.comwww.yahoo.com www.adobe.com/prodindex/acrobat/readstep.htmlwww.adobe.com/prodindex/acrobat/readstep.html

22 www.adobe.com/prodindex/acrobat/readstep.htmlwww.adobe.com/prodindex/acrobat/readstep.html www.yahoo.com/www.yahoo.com/

33 news.tucows.comnews.tucows.com www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/

44 www.altavista.comwww.altavista.com www.adobe.com/products/acrobat/readstep.htmlwww.adobe.com/products/acrobat/readstep.html

55 www.adobe.com/products/acrobat/readstep.htmlwww.adobe.com/products/acrobat/readstep.html www.ibm.com/www.ibm.com/

66 home.netscape.com/home.netscape.com/ home.netscape.com/home.netscape.com/

77 www.domaindirect.com/www.domaindirect.com/ www.listbot.com/www.listbot.com/

88 www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/ www.acme.com/software/thttpd/www.acme.com/software/thttpd/

99 www.ibm.com/www.ibm.com/ www.adobe.com/www.adobe.com/

1010 www.btsw.com/www.btsw.com/ www.w3.org/www.w3.org/

1111 webcrossing.com/webcrossing.com/ www.adobe.com/homepage.htmlwww.adobe.com/homepage.html

1212 www.real.com/www.real.com/ www.adobe.com/misc/privacy.htmlwww.adobe.com/misc/privacy.html

1313 www.acme.com/software/thttpd/www.acme.com/software/thttpd/ www.domaindirect.com/www.domaindirect.com/

1414 www.listbot.com/www.listbot.com/ www.adobe.com/misc/copyright.htmlwww.adobe.com/misc/copyright.html

1515 www.adobe.com/www.adobe.com/ www.adobe.com/misc/comments.htmlwww.adobe.com/misc/comments.html

1616 www.microsoft.com/windows/ie/default.htmwww.microsoft.com/windows/ie/default.htm www.adobe.com/store/main.htmlwww.adobe.com/store/main.html

1717 www.macromedia.com/shockwave/download/www.macromedia.com/shockwave/download/ www.listbot.com/faq.shtmlwww.listbot.com/faq.shtml

1818 counter.rambler.ru/top100/counter.rambler.ru/top100/ cbl.leeds.ac.uk/nikos/personal.htmlcbl.leeds.ac.uk/nikos/personal.html

1919 www.mkstats.com/www.mkstats.com/ www.listbot.com/cgi-bin/customerwww.listbot.com/cgi-bin/customer

2020 www.tucows.com/privacy.htmlwww.tucows.com/privacy.html news.tucows.com/news.tucows.com/

Page 29: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 2929/33/33

RankRank BackRankBackRank PageRankPageRank11 www.yahoo.comwww.yahoo.com www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html

22 www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html www.yahoo.com/www.yahoo.com/

33 news.tucows.comnews.tucows.com www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/

44 www.altavista.comwww.altavista.com www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html

55 www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html www.ibm.com/www.ibm.com/

66 home.netscape.com/home.netscape.com/ home.netscape.com/home.netscape.com/

77 www.domaindirect.com/www.domaindirect.com/ www.listbot.com/www.listbot.com/

88 www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/ www.acme.com/software/thttpd/www.acme.com/software/thttpd/

99 www.ibm.com/www.ibm.com/ www.adobe.com/www.adobe.com/

1010 www.btsw.com/www.btsw.com/ www.w3.org/www.w3.org/

Chevauchement : Chevauchement : 0%0%

ChevauchementChevauchement

RankRank BackRankBackRank PageRankPageRank11 www.yahoo.comwww.yahoo.com www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html

22 www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html www.yahoo.com/www.yahoo.com/

33 news.tucows.comnews.tucows.com www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/

44 www.altavista.comwww.altavista.com www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html

55 www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html www.ibm.com/www.ibm.com/

66 home.netscape.com/home.netscape.com/ home.netscape.com/home.netscape.com/

77 www.domaindirect.com/www.domaindirect.com/ www.listbot.com/www.listbot.com/

88 www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/ www.acme.com/software/thttpd/www.acme.com/software/thttpd/

99 www.ibm.com/www.ibm.com/ www.adobe.com/www.adobe.com/

1010 www.btsw.com/www.btsw.com/ www.w3.org/www.w3.org/

RankRank BackRankBackRank PageRankPageRank11 www.yahoo.comwww.yahoo.com www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html

22 www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html www.yahoo.com/www.yahoo.com/

33 news.tucows.comnews.tucows.com www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/

44 www.altavista.comwww.altavista.com www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html

55 www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html www.ibm.com/www.ibm.com/

66 home.netscape.com/home.netscape.com/ home.netscape.com/home.netscape.com/

77 www.domaindirect.com/www.domaindirect.com/ www.listbot.com/www.listbot.com/

88 www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/ www.acme.com/software/thttpd/www.acme.com/software/thttpd/

99 www.ibm.com/www.ibm.com/ www.adobe.com/www.adobe.com/

1010 www.btsw.com/www.btsw.com/ www.w3.org/www.w3.org/

Chevauchement : Chevauchement : 100%100%

RankRank BackRankBackRank PageRankPageRank11 www.yahoo.comwww.yahoo.com www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html

22 www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html www.yahoo.com/www.yahoo.com/

33 news.tucows.comnews.tucows.com www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/

44 www.altavista.comwww.altavista.com www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html

55 www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html www.ibm.com/www.ibm.com/

66 home.netscape.com/home.netscape.com/ home.netscape.com/home.netscape.com/

77 www.domaindirect.com/www.domaindirect.com/ www.listbot.com/www.listbot.com/

88 www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/ www.acme.com/software/thttpd/www.acme.com/software/thttpd/

99 www.ibm.com/www.ibm.com/ www.adobe.com/www.adobe.com/

1010 www.btsw.com/www.btsw.com/ www.w3.org/www.w3.org/

Chevauchement : Chevauchement : 60%60%

RankRank BackRankBackRank PageRankPageRank11 www.yahoo.comwww.yahoo.com www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html

22 www.adobe.com/prodindex/.../readstep.htmlwww.adobe.com/prodindex/.../readstep.html www.yahoo.com/www.yahoo.com/

33 news.tucows.comnews.tucows.com www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/

44 www.altavista.comwww.altavista.com www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html

55 www.adobe.com/products/.../readstep.htmlwww.adobe.com/products/.../readstep.html www.ibm.com/www.ibm.com/

66 home.netscape.com/home.netscape.com/ home.netscape.com/home.netscape.com/

77 www.domaindirect.com/www.domaindirect.com/ www.listbot.com/www.listbot.com/

88 www.worldwidemart.com/scripts/www.worldwidemart.com/scripts/ www.acme.com/software/thttpd/www.acme.com/software/thttpd/

99 www.ibm.com/www.ibm.com/ www.adobe.com/www.adobe.com/

1010 www.btsw.com/www.btsw.com/ www.w3.org/www.w3.org/

Page 30: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

30/33

Différence quantitativeentre PageRank et BackRank

Page 31: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

31/33

Convergences comparées

Page 32: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 3232/33/33

Futurs travauxFuturs travaux

Expérimentations de BackRank à grande Expérimentations de BackRank à grande échelleéchelle

Expérimentations de FlowRank et Expérimentations de FlowRank et BlowRank, algorithmes de classement BlowRank, algorithmes de classement distribué de PageRankdistribué de PageRank

Autre sujet de recherche : pair-à-pairAutre sujet de recherche : pair-à-pair

Page 33: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM 3333/33/33

PublicationsPublicationsStructure supposée du graphe du Web.Structure supposée du graphe du Web.

Première journée Graphes Dynamiques et Graphes du Web, Première journée Graphes Dynamiques et Graphes du Web, décembre 2001. [Mat01]décembre 2001. [Mat01]

http://www.liafa.jussieu.fr/~latapy/gdgw.htmlhttp://www.liafa.jussieu.fr/~latapy/gdgw.html

Structure intrinsèque du Web.Structure intrinsèque du Web.

Rapport Tech. RR-4663, INRIA, 2002. [MV02]Rapport Tech. RR-4663, INRIA, 2002. [MV02]

http://www.inria.fr/rrrt/rr-4663.htmlhttp://www.inria.fr/rrrt/rr-4663.html

Aspects locaux de l'importance globale des pages Web.Aspects locaux de l'importance globale des pages Web.

Algotel 2003 [MV03a]Algotel 2003 [MV03a]

http://http://dept-info.labri.u-bordeaux.frdept-info.labri.u-bordeaux.fr/algotel03//algotel03/

Effet de la touche Back dans un modèle de surfeur Effet de la touche Back dans un modèle de surfeur aléatoire : application à PageRank.aléatoire : application à PageRank.

1ères Journées Francophones de la Toile, 2003. [BM03]1ères Journées Francophones de la Toile, 2003. [BM03]

http:// http://www.antsearch.univ-tours.frwww.antsearch.univ-tours.fr/jft2003//jft2003/

Local Structure in the Web.Local Structure in the Web.

12th international WWW conference, 2003 [MV03b]12th international WWW conference, 2003 [MV03b]

http://www2003.org/cdrom/papers/poster/p102/p102-mathieu.hthttp://www2003.org/cdrom/papers/poster/p102/p102-mathieu.htmm

The effect of the back button in a random walk:The effect of the back button in a random walk:

application for pagerank.application for pagerank.

13th international WWW conference, 2004. [MB04]13th international WWW conference, 2004. [MB04]

http://www.www2004.org/proceedings/docs/2p370.pdfhttp://www.www2004.org/proceedings/docs/2p370.pdf

Local aspects of the Global Ranking of Web Pages.Local aspects of the Global Ranking of Web Pages.

Rapport Tech. RR-5192, INRIA, 2004. [MV04]Rapport Tech. RR-5192, INRIA, 2004. [MV04]

http://www.inria.fr/rrrt/rr-5192.htmlhttp://www.inria.fr/rrrt/rr-5192.html

The BackRank Algorithm:The BackRank Algorithm:

Using Backoff Process to Improve PageRankUsing Backoff Process to Improve PageRank

Soumis à Soumis à 14th international WWW conference, 200514th international WWW conference, 2005

File Sharing in P2P:File Sharing in P2P:

Missing Block Paradigm and Upload Strategies.Missing Block Paradigm and Upload Strategies.

Rapport Tech. RR-5193, INRIA, 2004. [MR04]Rapport Tech. RR-5193, INRIA, 2004. [MR04]

http://http://www.inria.frwww.inria.fr//rrrtrrrt/rr-5193.html/rr-5193.html

Page 34: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

34/33

FIN

Page 35: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

35/33

Influence du facteur d’amortissement sur le

chevauchement

Page 36: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

36/33

Décomposition du PageRank

PageRank entrantPageRank entrant

externeexterne

PageRankPageRank

de de zapzap (induction) (induction)

DiffusionDiffusion

à l’intérieur du siteà l’intérieur du site

PageRank sortantPageRank sortant

externeexterne

PageRank sortantPageRank sortant

de de zapzap (dissipation) (dissipation)

Page 37: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

37/33

Équations du PageRankexterne

Page 38: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

38/33

Amplification du PageRankd’un site

Page 39: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

39/33

Amplification du PageRankd’une page d’un site

Page 40: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

40/33

Page 41: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

41/33

Page 42: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMMUniversité Montpellier II - LIRMM

Propagation du PageRankPropagation du PageRank

RetourRetour

Page 43: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 44: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 45: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 46: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 47: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 48: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 49: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 50: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 51: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 52: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 53: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 54: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 55: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 56: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 57: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 58: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 59: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

Page 60: Graphes du Web, Mesures d’importance à la  PageRank

Université Montpellier II - LIRMM

Interprétation : surfeur aléatoire

RetourRetour