Graphes, multi-graphes et recherche d’information

download Graphes, multi-graphes et recherche d’information

of 39

  • date post

    11-May-2015
  • Category

    Science

  • view

    112
  • download

    2

Embed Size (px)

description

Journées FREMIT 2010 Toulouse, France September 20th, 2010

Transcript of Graphes, multi-graphes et recherche d’information

  • 1.Graphes, multi-graphes et recherche dinformation Nathalie Villa-Vialaneix http://www.nathalievilla.org & Taouq Dkaki (IRIT-UTM) IUT de Carcassonne (UPVD) & Institut de Mathmatiques de Toulouse Journes FREMIT 2010 Toulouse, 20/21 septembre 2010 1 / 16 Nathalie Villa-Vialaneix

2. 1 Introduction : RI et graphes 2 Approche graphes simples 3 Approche multigraphes 2 / 16 Nathalie Villa-Vialaneix 3. Introduction : RI et graphes Contexte et but de la recherche dinformation On dispose dun grand nombre de documents 3 / 16 Nathalie Villa-Vialaneix 4. Introduction : RI et graphes Contexte et but de la recherche dinformation On dispose dun grand nombre de documents et on recherche ceux qui sont pertinents pour une requte donne Organisation journes FREMIT ??? 3 / 16 Nathalie Villa-Vialaneix 5. Introduction : RI et graphes Modle Documents Requte 4 / 16 Nathalie Villa-Vialaneix 6. Introduction : RI et graphes Modle Documents Reprsentation des docs (liste de mots, type, ...) Requte Reprsentation de la requte 4 / 16 Nathalie Villa-Vialaneix 7. Introduction : RI et graphes Modle Documents Reprsentation des docs (liste de mots, type, ...) Comparaison (similarit...) Requte Reprsentation de la requte 4 / 16 Nathalie Villa-Vialaneix 8. Introduction : RI et graphes Modle Documents Reprsentation des docs (liste de mots, type, ...) Comparaison (similarit...) Requte Reprsentation de la requte Reprsentation des documents/requtes (peu abord : utilisation de lexistant) ; Comparaison de la requte aux documents (abord) ; valuation du systme sur des bases de donnes publiques (abord). 4 / 16 Nathalie Villa-Vialaneix 9. Introduction : RI et graphes Approches utilises Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; 5 / 16 Nathalie Villa-Vialaneix 10. Introduction : RI et graphes Approches utilises Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. 5 / 16 Nathalie Villa-Vialaneix 11. Introduction : RI et graphes Approches utilises Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. Utilisation des graphes pour modliser des donnes relationnelles. Exemple : Modlisation par un graphe biparti Document 1 Document 2 Document n ... Requte Mot 1 Mot 2 Mot 3 Mot 4 Mot m 5 / 16 Nathalie Villa-Vialaneix 12. Introduction : RI et graphes Approches utilises Approche basique : prise en compte uniquement des attributs de surface (description des Documents par leurs Termes) ; Approche PageRank : prise en compte (aussi) des relations Documents/Documents. Utilisation des graphes pour modliser des donnes relationnelles. Exemple : Modlisation par un graphe pondr 5 / 16 Nathalie Villa-Vialaneix 13. Approche graphes simples Principe de base Documents Matrices Requte Indexation Documents/Documents graphe Documents/Termes... Termes 6 / 16 Nathalie Villa-Vialaneix 14. Approche graphes simples Principe de base Documents Matrices Requte Indexation Documents/Documents graphe Documents/Termes... Termes Puis : calcul dune similarit/dissimilarit entre sommets du graphe ordonnancement des documents par similarit avec la requte. 6 / 16 Nathalie Villa-Vialaneix 15. Approche graphes simples Exemple de similarit Plongement des sommets dans un espace de Hilbert par le biais dun noyau: K(xi, xj) = (xi), (xj) . 7 / 16 Nathalie Villa-Vialaneix 16. Approche graphes simples Quel noyau pour les graphes ? Des noyaux bass sur le Laplacien Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n o Li,j = wi,j if i j di if i = j ; 8 / 16 Nathalie Villa-Vialaneix 17. Approche graphes simples Quel noyau pour les graphes ? Des noyaux bass sur le Laplacien Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n o Li,j = wi,j if i j di if i = j ; partir du Laplacien, on dnit le noyau de la chaleur : K(xi, xj) = eL ij ( quantit dnergie accumule en xj partir de xi). 8 / 16 Nathalie Villa-Vialaneix 18. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une distance entre sommets (notamment entre documents et entre une requte et un document). 9 / 16 Nathalie Villa-Vialaneix 19. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une distance entre sommets (notamment entre documents et entre une requte et un document). La rgle de rponse la requte est alors : 1 Dterminer K(r, xi) pour r la requte est xi les documents 2 Retenir les k documents maximisant K(r, xk ) (mesure de simularit) 9 / 16 Nathalie Villa-Vialaneix 20. Approche graphes simples Distance entre documents Les noyaux usuels de graphes sont de bons candidats pour construire une distance entre sommets (notamment entre documents et entre une requte et un document). La rgle de rponse la requte est alors : 1 Dterminer K(r, xi) pour r la requte est xi les documents 2 Retenir les k documents maximisant K(r, xk ) (mesure de simularit) Problme : Les graphes bipartis considrs dans ces problmes ont plusieurs milliers de sommets... Ncessit dun ltre pralable pour diminuer la taille du graphe. 9 / 16 Nathalie Villa-Vialaneix 21. Approche graphes simples Validation de lapproche Utilisation dune collection de tests publics (ici CRAN ; pertinence de documents value par des experts (humains) pour diverses requtes) 10 / 16 Nathalie Villa-Vialaneix 22. Approche graphes simples Validation de lapproche Utilisation dune collection de tests publics (ici CRAN ; pertinence de documents value par des experts (humains) pour diverses requtes) Similarit base sur le graphe des correspondances 10 / 16 Nathalie Villa-Vialaneix 23. Approche graphes simples Validation de lapproche Utilisation dune collection de tests publics (ici CRAN ; pertinence de documents value par des experts (humains) pour diverses requtes) Similarit base sur le graphe biparti 10 / 16 Nathalie Villa-Vialaneix 24. Approche graphes simples Validation de lapproche Utilisation dune collection de tests publics (ici CRAN ; pertinence de documents value par des experts (humains) pour diverses requtes) Conclusion : Ne semble pas trs pertinent pour ce type de graphes... 10 / 16 Nathalie Villa-Vialaneix 25. Approche multigraphes Des graphes aux multigraphes Modle relationnel plus complet du problme : Document 1 Document 2 Document n ... Requte Mot 1 Mot 2 Mot 3 Mot 4 Mot m Relations entre Documents : nombre de mots communs (arrte pondre), prcde/suit (oui/non)... 11 / 16 Nathalie Villa-Vialaneix 26. Approche multigraphes Des graphes aux multigraphes Modle relationnel plus complet du problme : Document 1 Document 2 Document n ... Requte Mot 1 Mot 2 Mot 3 Mot 4 Mot m Informations sur les Documents : type de document (qualitatif)... 11 / 16 Nathalie Villa-Vialaneix 27. Approche multigraphes Des graphes aux multigraphes Modle relationnel plus complet du problme : Document 1 Document 2 Document n ... Requte Mot 1 Mot 2 Mot 3 Mot 4 Mot m Relations entre Mots : synonyme, gnralise (oui/non)... etc... 11 / 16 Nathalie Villa-Vialaneix 28. Approche multigraphes Combiner les informations un type dinformation un noyau Ki 12 / 16 Nathalie Villa-Vialaneix 29. Approche multigraphes Combiner les informations un type dinformation un noyau Ki Comment combiner K1, . . . , Kp ? 12 / 16 Nathalie Villa-Vialaneix 30. Approche multigraphes Combiner les informations un type dinformation un noyau Ki Comment combiner K1, . . . , Kp ? Proposition : Utilisation dun noyau K = p i=1 iKi et optimisation des i. 12 / 16 Nathalie Villa-Vialaneix 31. Approche multigraphes Approche supervise Hypothse : On sait si certains Documents/Mots sont pertinents pour la requte 13 / 16 Nathalie Villa-Vialaneix 32. Approche multigraphes Approche supervise Hypothse : On sait si certains Documents/Mots sont pertinents pour la requte Document 1 Document 2 Document n ... Requte Mot 1 Mot 2 Mot 3 Mot 4 Mot m Exemple : Pertinent : Document 1 et Mot 4 ; Non pertinent : Document 2, Mot 1 et Mot 2 ; Inconnu : Document n, Mot 3 et Mot m. 13 / 16 Nathalie Villa-Vialaneix 33. Approche multigraphes Mthodologie Apprentissage de la rgle de dcision (pertinent/non pertinent) partir du noyau K par un SVM : min w,b, wT w + C i i tel que : yi wT (xi) + b 1 i et i 0 pour tout i = 1, . . . , n o xi sont les sommets du graphe dont la pertinence est connue (n sommets) ; est le plongement associ au noyau K : (xi), (xj) = K(xi, xj) ( non explicite grce lastuce noyau) ; Solution par programmation quadratique. 14 / 16 Nathalie Villa-Vialaneix 34. Approche multigraphes Mthodologie Apprentissage de la rgle de dcision (pertinent/non pertinent) partir du noyau K par un SVM Prdiction (pertinent: 1/non pertinent: 1) pour un sommet non connu xnew : P(xnew) = Sign n i=1 iK(xi, xnew) + b pour w = n i=1 iK(xi, xnew). 14 / 16 Nathalie Villa-Vialaneix 35. Approche multigraphes Comment optimiser K = p j=1 jKj ? [Lanckriet et al., 2004] : La qualit de prdiction est borne par une fonction de la solution optimale du problme quadratique prcdent (pour Tr(K) xe). 15 / 16 Nathalie Villa-Vialaneix 36. Approche multigraphes Comment optimiser K = p j=1 jKj ? [Lanckriet et al., 2004] : La qualit de prdiction est borne par une fonction de la solution optimale du problme quadratique prcdent (pour Tr(K) xe). Minimisation en j de la solution (SDP) noyau optimis et rgle de dcision. 15 / 16 Nathalie Villa-Vialaneix 37. Approche multigraphes Conclusion et perspectiv