Download - Graphes, multi-graphes et recherche d’information

Transcript
Page 1: Graphes, multi-graphes et recherche d’information

Graphes, multi-graphes et recherched’information

Nathalie Villa-Vialaneix'

http://www.nathalievilla.org

& Taoufiq Dkaki (IRIT-UTM)

' IUT de Carcassonne (UPVD)

& Institut de Mathématiques de Toulouse

Journées FREMIT 2010

Toulouse, 20/21 septembre 2010

1 / 16Nathalie Villa-Vialaneix

N

Page 2: Graphes, multi-graphes et recherche d’information

1 Introduction : RI et graphes

2 Approche graphes simples

3 Approche multigraphes

2 / 16Nathalie Villa-Vialaneix

N

Page 3: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Contexte et but de la recherched’information

On dispose d’un grand nombre de documents

et on rechercheceux qui sont pertinents pour une requête donnée

Organisation journées FREMIT???−−−→

3 / 16Nathalie Villa-Vialaneix

N

Page 4: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Contexte et but de la recherched’information

On dispose d’un grand nombre de documents et on rechercheceux qui sont pertinents pour une requête donnée

Organisation journées FREMIT???−−−→

3 / 16Nathalie Villa-Vialaneix

N

Page 5: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Modèle

Documents

→ Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête

→ Représentation de la requête ↗

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête →

Représentation de la requête

Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;

“Comparaison” de la requête aux documents (abordé) ;

Évaluation du système sur des bases de données publiques(abordé).

4 / 16Nathalie Villa-Vialaneix

N

Page 6: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Modèle

Documents → Représentation des docs

(liste de mots, type, ...)

Comparaison(similarité...)

Requête → Représentation de la requête

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête → Représentation de la requête ↗

Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;

“Comparaison” de la requête aux documents (abordé) ;

Évaluation du système sur des bases de données publiques(abordé).

4 / 16Nathalie Villa-Vialaneix

N

Page 7: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Modèle

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête → Représentation de la requête ↗

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête → Représentation de la requête ↗

Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;

“Comparaison” de la requête aux documents (abordé) ;

Évaluation du système sur des bases de données publiques(abordé).

4 / 16Nathalie Villa-Vialaneix

N

Page 8: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Modèle

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête → Représentation de la requête ↗

Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;

“Comparaison” de la requête aux documents (abordé) ;

Évaluation du système sur des bases de données publiques(abordé).

4 / 16Nathalie Villa-Vialaneix

N

Page 9: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Approches utilisées

Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;

Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.

⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré

5 / 16Nathalie Villa-Vialaneix

N

Page 10: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Approches utilisées

Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;

Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.

⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré

5 / 16Nathalie Villa-Vialaneix

N

Page 11: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Approches utilisées

Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;

Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.

⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe biparti

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Exemple : Modélisation par un graphe pondéré

5 / 16Nathalie Villa-Vialaneix

N

Page 12: Graphes, multi-graphes et recherche d’information

Introduction : RI et graphes

Approches utilisées

Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;

Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.

⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré

5 / 16Nathalie Villa-Vialaneix

N

Page 13: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Principe de base

Documents ↘

MatricesRequête Indexation Documents/Documents → graphe

Documents/Termes...Termes ↗

Puis : calcul d’une similarité/dissimilarité entre sommets dugraphe⇒ ordonnancement des documents par similarité avec larequête.

6 / 16Nathalie Villa-Vialaneix

N

Page 14: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Principe de base

Documents ↘

MatricesRequête Indexation Documents/Documents → graphe

Documents/Termes...Termes ↗

Puis : calcul d’une similarité/dissimilarité entre sommets dugraphe⇒ ordonnancement des documents par similarité avec larequête.

6 / 16Nathalie Villa-Vialaneix

N

Page 15: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Exemple de similarité

φ−→

Plongement des sommets dans un espace de Hilbert par le biaisd’un noyau:

K(xi , xj) = 〈φ(xi), φ(xj)〉.

7 / 16Nathalie Villa-Vialaneix

N

Page 16: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Quel noyau pour les graphes ?

Des noyaux basés sur le Laplacien

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i anddi =

∑nj=1 wi,j , Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

À partir du Laplacien, on définit le noyau de la chaleur :K(xi , xj) =

[e−βL

]ij

(' quantité d’énergie accumulée en xj à partirde xi).

8 / 16Nathalie Villa-Vialaneix

N

Page 17: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Quel noyau pour les graphes ?

Des noyaux basés sur le Laplacien

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i anddi =

∑nj=1 wi,j , Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

À partir du Laplacien, on définit le noyau de la chaleur :K(xi , xj) =

[e−βL

]ij

(' quantité d’énergie accumulée en xj à partirde xi).

8 / 16Nathalie Villa-Vialaneix

N

Page 18: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).

La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents

2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.

9 / 16Nathalie Villa-Vialaneix

N

Page 19: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents

2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.

9 / 16Nathalie Villa-Vialaneix

N

Page 20: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents

2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.

9 / 16Nathalie Villa-Vialaneix

N

Page 21: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Validation de l’approche

Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)

Conclusion : Ne semble pas très pertinent pour ce type degraphes...

10 / 16Nathalie Villa-Vialaneix

N

Page 22: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Validation de l’approche

Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Similarité basée sur le graphe des correspondances

Conclusion : Ne semble pas très pertinent pour ce type degraphes...

10 / 16Nathalie Villa-Vialaneix

N

Page 23: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Validation de l’approche

Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Similarité basée sur le graphe biparti

Conclusion : Ne semble pas très pertinent pour ce type degraphes...

10 / 16Nathalie Villa-Vialaneix

N

Page 24: Graphes, multi-graphes et recherche d’information

Approche graphes simples

Validation de l’approche

Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Conclusion : Ne semble pas très pertinent pour ce type degraphes...

10 / 16Nathalie Villa-Vialaneix

N

Page 25: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Des graphes aux multigraphes

Modèle relationnel plus complet du problème :

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Relations entre Documents : nombre de mots communs (arrêtepondérée), précède/suit (oui/non)...

Relations entre Mots :synonyme, généralise (oui/non)...etc...

11 / 16Nathalie Villa-Vialaneix

N

Page 26: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Des graphes aux multigraphes

Modèle relationnel plus complet du problème :

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Informations sur les Documents : type de document (qualitatif)...

Relations entre Mots : synonyme, généralise (oui/non)...etc...

11 / 16Nathalie Villa-Vialaneix

N

Page 27: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Des graphes aux multigraphes

Modèle relationnel plus complet du problème :

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Relations entre Mots : synonyme, généralise (oui/non)...etc...

11 / 16Nathalie Villa-Vialaneix

N

Page 28: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Combiner les informations

un type d’information→ un noyau Ki

Comment combiner K1, . . . , Kp ?

Proposition : Utilisation d’un noyau

K =

p∑i=1

αiKi

et optimisation des αi .

12 / 16Nathalie Villa-Vialaneix

N

Page 29: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Combiner les informations

un type d’information→ un noyau Ki

Comment combiner K1, . . . , Kp ?

Proposition : Utilisation d’un noyau

K =

p∑i=1

αiKi

et optimisation des αi .

12 / 16Nathalie Villa-Vialaneix

N

Page 30: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Combiner les informations

un type d’information→ un noyau Ki

Comment combiner K1, . . . , Kp ?

Proposition : Utilisation d’un noyau

K =

p∑i=1

αiKi

et optimisation des αi .

12 / 16Nathalie Villa-Vialaneix

N

Page 31: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Approche supervisée

Hypothèse : On sait si certains Documents/Mots sont pertinentspour la requête

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Motm.

13 / 16Nathalie Villa-Vialaneix

N

Page 32: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Approche supervisée

Hypothèse : On sait si certains Documents/Mots sont pertinentspour la requête

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Motm.

13 / 16Nathalie Villa-Vialaneix

N

Page 33: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Méthodologie

Apprentissage de la règle de décision (pertinent/non pertinent) àpartir du noyau K par un SVM :

minw,b ,ξ

wT w + C∑

i

ξi

tel que : yi

(wTφ(xi) + b

)≥ 1 − ξi et ξi ≥ 0 pour tout i = 1, . . . , n où

xi sont les sommets du graphe dont la pertinence est connue (nsommets) ;φ est le plongement associé au noyau K : 〈φ(xi), φ(xj)〉 = K(xi , xj) (φnon explicite grâce à l’“astuce noyau”) ;Solution par programmation quadratique.

Prédiction (pertinent: 1/non pertinent: −1) pour un sommet nonconnu xnew :

P(xnew) = Sign

n∑i=1

βiK(xi , xnew) + b

pour w =

∑ni=1 βiK(xi , xnew).

14 / 16Nathalie Villa-VialaneixN

Page 34: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Méthodologie

Apprentissage de la règle de décision (pertinent/non pertinent) àpartir du noyau K par un SVM

Prédiction (pertinent: 1/non pertinent: −1) pour un sommet nonconnu xnew :

P(xnew) = Sign

n∑i=1

βiK(xi , xnew) + b

pour w =

∑ni=1 βiK(xi , xnew).

14 / 16Nathalie Villa-VialaneixN

Page 35: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Comment optimiser K =∑p

j=1 αjKj ?

[Lanckriet et al., 2004] : La qualité de prédiction est bornée parune fonction de la solution optimale du problème quadratiqueprécédent (pour Tr(K) fixée).

⇒ Minimisation en αj de la solution (SDP) noyau optimisé etrègle de décision.

15 / 16Nathalie Villa-Vialaneix

N

Page 36: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Comment optimiser K =∑p

j=1 αjKj ?

[Lanckriet et al., 2004] : La qualité de prédiction est bornée parune fonction de la solution optimale du problème quadratiqueprécédent (pour Tr(K) fixée).⇒ Minimisation en αj de la solution (SDP) noyau optimisé etrègle de décision.

15 / 16Nathalie Villa-Vialaneix

N

Page 37: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Conclusion et perspectives

Avantage/inconvénient de l’approche1 La requête fait partie du modèle : approche peu utilisable

“online” ;

2 Par contre, approche adaptée pour du relevance feedback.

Perspectives1 Création d’un dépôt pour des jeux de test avec génération de

multigraphes à la volée (format graphML) : en cours (manquentune inclusion facile des relations termes/termes et desfonctionnalités sur les sorties graphML).

2 Étude des problèmes de passage à la grande échelle del’algorithme précédent (vers une utilisation “online”) et choix denoyaux appropriés aux diverses informations.

3 Tests...

16 / 16Nathalie Villa-Vialaneix

N

Page 38: Graphes, multi-graphes et recherche d’information

Approche multigraphes

Conclusion et perspectives

Avantage/inconvénient de l’approche1 La requête fait partie du modèle : approche peu utilisable

“online” ;

2 Par contre, approche adaptée pour du relevance feedback.

Perspectives1 Création d’un dépôt pour des jeux de test avec génération de

multigraphes à la volée (format graphML) : en cours (manquentune inclusion facile des relations termes/termes et desfonctionnalités sur les sorties graphML).

2 Étude des problèmes de passage à la grande échelle del’algorithme précédent (vers une utilisation “online”) et choix denoyaux appropriés aux diverses informations.

3 Tests...

16 / 16Nathalie Villa-Vialaneix

N

Page 39: Graphes, multi-graphes et recherche d’information

Quelques référencesLanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004).Learning the kernel matrix with semidefinite programming.

Journal of Machine Learning Research, 5:27–72.

Merci de votre attention...

16 / 16Nathalie Villa-Vialaneix

N