Graphes, multi-graphes et recherche d’information

Post on 11-May-2015

132 views 3 download

description

Journées FREMIT 2010 Toulouse, France September 20th, 2010

Transcript of Graphes, multi-graphes et recherche d’information

Graphes, multi-graphes et recherched’information

Nathalie Villa-Vialaneix'

http://www.nathalievilla.org

& Taoufiq Dkaki (IRIT-UTM)

' IUT de Carcassonne (UPVD)

& Institut de Mathématiques de Toulouse

Journées FREMIT 2010

Toulouse, 20/21 septembre 2010

1 / 16Nathalie Villa-Vialaneix

N

1 Introduction : RI et graphes

2 Approche graphes simples

3 Approche multigraphes

2 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Contexte et but de la recherched’information

On dispose d’un grand nombre de documents

et on rechercheceux qui sont pertinents pour une requête donnée

Organisation journées FREMIT???−−−→

3 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Contexte et but de la recherched’information

On dispose d’un grand nombre de documents et on rechercheceux qui sont pertinents pour une requête donnée

Organisation journées FREMIT???−−−→

3 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Modèle

Documents

→ Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête

→ Représentation de la requête ↗

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête →

Représentation de la requête

Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;

“Comparaison” de la requête aux documents (abordé) ;

Évaluation du système sur des bases de données publiques(abordé).

4 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Modèle

Documents → Représentation des docs

(liste de mots, type, ...)

Comparaison(similarité...)

Requête → Représentation de la requête

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête → Représentation de la requête ↗

Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;

“Comparaison” de la requête aux documents (abordé) ;

Évaluation du système sur des bases de données publiques(abordé).

4 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Modèle

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête → Représentation de la requête ↗

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête → Représentation de la requête ↗

Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;

“Comparaison” de la requête aux documents (abordé) ;

Évaluation du système sur des bases de données publiques(abordé).

4 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Modèle

Documents → Représentation des docs ↘

(liste de mots, type, ...)Comparaison(similarité...)

Requête → Représentation de la requête ↗

Représentation des documents/requêtes (peu abordé : utilisationde l’existant) ;

“Comparaison” de la requête aux documents (abordé) ;

Évaluation du système sur des bases de données publiques(abordé).

4 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Approches utilisées

Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;

Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.

⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré

5 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Approches utilisées

Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;

Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.

⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré

5 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Approches utilisées

Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;

Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.

⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe biparti

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Exemple : Modélisation par un graphe pondéré

5 / 16Nathalie Villa-Vialaneix

N

Introduction : RI et graphes

Approches utilisées

Approche basique : prise en compte uniquement des attributs desurface (description des Documents par leurs Termes) ;

Approche PageRank : prise en compte (aussi) des relationsDocuments/Documents.

⇒ Utilisation des graphes pour modéliser des donnéesrelationnelles. Exemple : Modélisation par un graphe pondéré

5 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Principe de base

Documents ↘

MatricesRequête Indexation Documents/Documents → graphe

Documents/Termes...Termes ↗

Puis : calcul d’une similarité/dissimilarité entre sommets dugraphe⇒ ordonnancement des documents par similarité avec larequête.

6 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Principe de base

Documents ↘

MatricesRequête Indexation Documents/Documents → graphe

Documents/Termes...Termes ↗

Puis : calcul d’une similarité/dissimilarité entre sommets dugraphe⇒ ordonnancement des documents par similarité avec larequête.

6 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Exemple de similarité

φ−→

Plongement des sommets dans un espace de Hilbert par le biaisd’un noyau:

K(xi , xj) = 〈φ(xi), φ(xj)〉.

7 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Quel noyau pour les graphes ?

Des noyaux basés sur le Laplacien

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i anddi =

∑nj=1 wi,j , Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

À partir du Laplacien, on définit le noyau de la chaleur :K(xi , xj) =

[e−βL

]ij

(' quantité d’énergie accumulée en xj à partirde xi).

8 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Quel noyau pour les graphes ?

Des noyaux basés sur le Laplacien

Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs(wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i anddi =

∑nj=1 wi,j , Laplacien : L = (Li,j)i,j=1,...,n où

Li,j =

{−wi,j if i , jdi if i = j

;

À partir du Laplacien, on définit le noyau de la chaleur :K(xi , xj) =

[e−βL

]ij

(' quantité d’énergie accumulée en xj à partirde xi).

8 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).

La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents

2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.

9 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents

2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.

9 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Distance entre documents

Les noyaux usuels de graphes sont de bons candidats pourconstruire une “distance” entre sommets (notamment entredocuments et entre une requête et un document).La règle de réponse à la requête est alors :

1 Déterminer K(r , xi) pour r la requête est xi les documents

2 Retenir les k documents maximisant K(r , xk ) (mesure de simularité)

Problème : Les graphes bipartis considérés dans ces problèmesont plusieurs milliers de sommets... Nécessité d’un filtrepréalable pour diminuer la taille du graphe.

9 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Validation de l’approche

Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)

Conclusion : Ne semble pas très pertinent pour ce type degraphes...

10 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Validation de l’approche

Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Similarité basée sur le graphe des correspondances

Conclusion : Ne semble pas très pertinent pour ce type degraphes...

10 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Validation de l’approche

Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Similarité basée sur le graphe biparti

Conclusion : Ne semble pas très pertinent pour ce type degraphes...

10 / 16Nathalie Villa-Vialaneix

N

Approche graphes simples

Validation de l’approche

Utilisation d’une collection de tests publics (ici CRAN ;pertinence de documents évaluée par des experts (humains) pourdiverses requêtes)Conclusion : Ne semble pas très pertinent pour ce type degraphes...

10 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Des graphes aux multigraphes

Modèle relationnel plus complet du problème :

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Relations entre Documents : nombre de mots communs (arrêtepondérée), précède/suit (oui/non)...

Relations entre Mots :synonyme, généralise (oui/non)...etc...

11 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Des graphes aux multigraphes

Modèle relationnel plus complet du problème :

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Informations sur les Documents : type de document (qualitatif)...

Relations entre Mots : synonyme, généralise (oui/non)...etc...

11 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Des graphes aux multigraphes

Modèle relationnel plus complet du problème :

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Relations entre Mots : synonyme, généralise (oui/non)...etc...

11 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Combiner les informations

un type d’information→ un noyau Ki

Comment combiner K1, . . . , Kp ?

Proposition : Utilisation d’un noyau

K =

p∑i=1

αiKi

et optimisation des αi .

12 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Combiner les informations

un type d’information→ un noyau Ki

Comment combiner K1, . . . , Kp ?

Proposition : Utilisation d’un noyau

K =

p∑i=1

αiKi

et optimisation des αi .

12 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Combiner les informations

un type d’information→ un noyau Ki

Comment combiner K1, . . . , Kp ?

Proposition : Utilisation d’un noyau

K =

p∑i=1

αiKi

et optimisation des αi .

12 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Approche supervisée

Hypothèse : On sait si certains Documents/Mots sont pertinentspour la requête

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Motm.

13 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Approche supervisée

Hypothèse : On sait si certains Documents/Mots sont pertinentspour la requête

Document 1

Document 2

Document n

...

Requête

Mot 1

Mot 2

Mot 3

Mot 4

Mot m

Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent :Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Motm.

13 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Méthodologie

Apprentissage de la règle de décision (pertinent/non pertinent) àpartir du noyau K par un SVM :

minw,b ,ξ

wT w + C∑

i

ξi

tel que : yi

(wTφ(xi) + b

)≥ 1 − ξi et ξi ≥ 0 pour tout i = 1, . . . , n où

xi sont les sommets du graphe dont la pertinence est connue (nsommets) ;φ est le plongement associé au noyau K : 〈φ(xi), φ(xj)〉 = K(xi , xj) (φnon explicite grâce à l’“astuce noyau”) ;Solution par programmation quadratique.

Prédiction (pertinent: 1/non pertinent: −1) pour un sommet nonconnu xnew :

P(xnew) = Sign

n∑i=1

βiK(xi , xnew) + b

pour w =

∑ni=1 βiK(xi , xnew).

14 / 16Nathalie Villa-VialaneixN

Approche multigraphes

Méthodologie

Apprentissage de la règle de décision (pertinent/non pertinent) àpartir du noyau K par un SVM

Prédiction (pertinent: 1/non pertinent: −1) pour un sommet nonconnu xnew :

P(xnew) = Sign

n∑i=1

βiK(xi , xnew) + b

pour w =

∑ni=1 βiK(xi , xnew).

14 / 16Nathalie Villa-VialaneixN

Approche multigraphes

Comment optimiser K =∑p

j=1 αjKj ?

[Lanckriet et al., 2004] : La qualité de prédiction est bornée parune fonction de la solution optimale du problème quadratiqueprécédent (pour Tr(K) fixée).

⇒ Minimisation en αj de la solution (SDP) noyau optimisé etrègle de décision.

15 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Comment optimiser K =∑p

j=1 αjKj ?

[Lanckriet et al., 2004] : La qualité de prédiction est bornée parune fonction de la solution optimale du problème quadratiqueprécédent (pour Tr(K) fixée).⇒ Minimisation en αj de la solution (SDP) noyau optimisé etrègle de décision.

15 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Conclusion et perspectives

Avantage/inconvénient de l’approche1 La requête fait partie du modèle : approche peu utilisable

“online” ;

2 Par contre, approche adaptée pour du relevance feedback.

Perspectives1 Création d’un dépôt pour des jeux de test avec génération de

multigraphes à la volée (format graphML) : en cours (manquentune inclusion facile des relations termes/termes et desfonctionnalités sur les sorties graphML).

2 Étude des problèmes de passage à la grande échelle del’algorithme précédent (vers une utilisation “online”) et choix denoyaux appropriés aux diverses informations.

3 Tests...

16 / 16Nathalie Villa-Vialaneix

N

Approche multigraphes

Conclusion et perspectives

Avantage/inconvénient de l’approche1 La requête fait partie du modèle : approche peu utilisable

“online” ;

2 Par contre, approche adaptée pour du relevance feedback.

Perspectives1 Création d’un dépôt pour des jeux de test avec génération de

multigraphes à la volée (format graphML) : en cours (manquentune inclusion facile des relations termes/termes et desfonctionnalités sur les sorties graphML).

2 Étude des problèmes de passage à la grande échelle del’algorithme précédent (vers une utilisation “online”) et choix denoyaux appropriés aux diverses informations.

3 Tests...

16 / 16Nathalie Villa-Vialaneix

N

Quelques référencesLanckriet, G., Cristianini, N., Bartlett, P., El Ghaoui, L., and Jordan, M. (2004).Learning the kernel matrix with semidefinite programming.

Journal of Machine Learning Research, 5:27–72.

Merci de votre attention...

16 / 16Nathalie Villa-Vialaneix

N