Fouille de données pour de grands graphes. Recherche de communautés et organisation

download Fouille de données pour de grands graphes. Recherche de communautés et organisation

of 50

  • date post

    11-May-2015
  • Category

    Science

  • view

    136
  • download

    1

Embed Size (px)

description

Journées FREMIT, Toulouse 8 décembre 2008

Transcript of Fouille de données pour de grands graphes. Recherche de communautés et organisation

  • 1.Fouille de donnes pour de grands graphes. Recherche de communauts et organisation Taoq Dkaki2 , Jean-Michel Inglebert2 , Sbastien Gadat1 , Dinh Truong2 & Nathalie Villa1 1 Institut de Mathmatiques de Toulouse 2 Institut de Recherche en Informatique de Toulouse Journes FREMIT, 8 dcembre 2008 Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 1 / 22

2. Sommaire 1 Classication et organisation de graphes Motivations Outils existants et limites : cartes auto-organisatrices noyau Une approche stochastique : algorithme de recuit simul 2 Recherche dinformations Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 2 / 22 3. Comprendre la structure de grands graphes Quelques exemples de problmes modliss par de grands graphes 1 Rseaux sociaux rseaux de connaissances rseaux de linternet rseaux de citations Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 3 / 22 4. Comprendre la structure de grands graphes Quelques exemples de problmes modliss par de grands graphes 1 Rseaux sociaux rseaux de connaissances rseaux de linternet rseaux de citations 2 Rseaux biologiques rseaux dinteractions de protines rseau dinteractions de gnes Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 3 / 22 5. Comprendre la structure de grands graphes Quelques exemples de problmes modliss par de grands graphes 1 Rseaux sociaux rseaux de connaissances rseaux de linternet rseaux de citations 2 Rseaux biologiques rseaux dinteractions de protines rseau dinteractions de gnes 3 documents, prfrences (graphes bipartis), . . . Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 3 / 22 6. Comprendre la structure de grands graphes Quelques exemples de problmes modliss par de grands graphes 1 Rseaux sociaux rseaux de connaissances rseaux de linternet rseaux de citations 2 Rseaux biologiques rseaux dinteractions de protines rseau dinteractions de gnes 3 documents, prfrences (graphes bipartis), . . . Problmes rencontrs lors de la manipulation de ce type de donnes : comment reprsenter le graphe de manire lisible et interprtable ? quelles mthodes de fouille de donnes car aucune structure euclidienne ? taille des donnes (plusieurs centaines ou plusieurs milliers de sommets...) ncessite de faire attention la complexit des algorithmes utiliss. Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 3 / 22 7. Exemples rels Un rseau social venu du Moyen-ge Utilisation dun corpus de 5000 contrats agraires issus des archives de Cahors (Lot). Ces contrats viennent de 4 seigneuries (environ 25 petits villages au total) du Sud-Ouest de la France et ont t tablis entre 1240 et 1520 (avant et aprs la guerre de cent ans). Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 4 / 22 8. Exemples rels Un rseau social venu du Moyen-ge Utilisation dun corpus de 5000 contrats agraires issus des archives de Cahors (Lot). Ces contrats viennent de 4 seigneuries (environ 25 petits villages au total) du Sud-Ouest de la France et ont t tablis entre 1240 et 1520 (avant et aprs la guerre de cent ans). partir de 1000 contrats datant davant la guerre de 100 ans, nous avons modlis le rseau social sur la base de mentions communes sur un contrat donn de deux paysans. Le rsultat est un graphe pondr de 615 sommets. Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 4 / 22 9. Exemples rels Un rseau de collaborations Un rseau de collaborations scientiques autour de la thmatique des rseaux sociaux [Newman, 2006] : graphe connexe pondr avec 379 sommets. Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 4 / 22 10. Point de vue adopt [Newman and Girvan, 2004] reducing [the] level of complexity [of a network] to one that can be interpreted readily by the human eye, will be invaluable in helping us to understand the large-scale structure of these new network data Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 5 / 22 11. Point de vue adopt [Newman and Girvan, 2004] reducing [the] level of complexity [of a network] to one that can be interpreted readily by the human eye, will be invaluable in helping us to understand the large-scale structure of these new network data Mthodologie : Mise en valeur de groupes homognes (ou fortement connects) lis une visualisation permettant de comprendre facilement les relations entre ces groupes : outils statistiques lis la classication (de sommets dun graphe) et/ou lorganisation. Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 5 / 22 12. Point de vue adopt [Newman and Girvan, 2004] reducing [the] level of complexity [of a network] to one that can be interpreted readily by the human eye, will be invaluable in helping us to understand the large-scale structure of these new network data Mthodologie : Mise en valeur de groupes homognes (ou fortement connects) lis une visualisation permettant de comprendre facilement les relations entre ces groupes : outils statistiques lis la classication (de sommets dun graphe) et/ou lorganisation. Problmatique de la recherche de communauts: groupes sociaux homognes, groupes de protines, de gnes fortement lis, etc... Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 5 / 22 13. Principe gnral des cartes auto-organisatrices noyau Plongement des sommets dans un espace de Hilbert par le biais dun noyau: K(xi, xj) = (xi), (xj) . Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 6 / 22 14. Principe gnral des cartes auto-organisatrices noyau p1 p2 p3 1 2 3 Utilisation de la structure hilbertienne pour effectuer une classication (k-means par exemple) ou une classication organise du graphe (cartes de Kohonen, par exemple). Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 6 / 22 15. Quel noyau pour les graphes ? Des noyaux bass sur le Laplacien Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n o Li,j = wi,j if i j di if i = j ; Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 7 / 22 16. Quel noyau pour les graphes ? Des noyaux bass sur le Laplacien Pour un graphe de sommets V = {x1, . . . , xn} et de poids positifs (wi,j)i,j=1,...,n tels que, pour tout i, j = 1, . . . , n, wi,j = wj,i and di = n j=1 wi,j, Laplacien : L = (Li,j)i,j=1,...,n o Li,j = wi,j if i j di if i = j ; partir du Laplacien, on dnit divers noyaux rgularisant: noyau de la chaleur : K(xi, xj) = eL ij est la quantit dnergie accumule en xj aprs un temps donn lorsque lnergie a t injecte en xi au temps 0 et que la propagation sest faite de manire continue le long des artes du graphe. inverse gnralise du Laplacien : K(xi, xj) = [L+]ij est relatif est au temps moyen du premier passage dans xj pour une marche alatoire le long des artes du graphe dbutant en xi. Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 7 / 22 17. Exemple de rsultat obtenu Rseau social mdival avec noyau de la chaleur [Boulet et al., 2008] Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 8 / 22 18. Exemple de rsultat obtenu Rseau de collaborations avec inverse gnralise Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 8 / 22 19. Exemple de rsultat obtenu Rseau de collaborations avec inverse gnralise Questions : Comment utiliser ce travail de classication comme premire tape dune reprsentation complte du graphe ? Comment reprsenter compltement la classication (ie, le plongement du graphe sur la carte) ? Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 8 / 22 20. Algorithmes force et repousse contraints [Truong et al., 2007, Truong et al., 2008, Villa et al., 2008] La Suite... En ajoutant des contraintes sur les algorithmes de force et repousse Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 9 / 22 21. Pourquoi une approche alternative aux approches noyau ? Limites de ces approches : ncessitent une dcomposition spectrale du Laplacien : trop coteuse si le graphe a plusieurs milliers de sommets ; dpendent du choix du noyau (ie, de la structure euclidienne place sur les sommets) ; problmes de slection des paramtres (noyau, taille de la carte) car le critre de qualit habituel de lalgorithme de Kohonen (nergie) dpend de ces paramtres. Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 11 / 22 22. Un critre de mesure de la qualit de la classication [Newman and Girvan, 2004] ont propos une mesure de qualit dun dcoupage en communauts, la modularit : Q = {artes lintrieur des communauts} {artes attendues dans un modle nul} Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 12 / 22 23. Un critre de mesure de la qualit de la classication [Newman and Girvan, 2004] ont propos une mesure de qualit dun dcoupage en communauts, la modularit : Q = {artes lintrieur des communauts} {artes attendues dans un modle nul} Que peut-tre le modle nul ? Diffrentes dnitions sont possibles. . . [Newman, 2006] propose le nombre dartes du modle nul est celui du graphe observ ; le degr de chaque sommet du modle nul est celui du graphe observ (lattachement un individu de fort degr est plus probable). Nathalie Villa (IMT & TSE) Fouille de donnes & graphes FREMIT - 08/12/2008 12 / 22 24. Un critre de mesure de la qualit de la classication [Newman and Girvan, 2004] ont propos une mesure de qualit dun dcoupage en communauts, la modularit : Q = {artes lintrieur des communauts} {artes attendues dans un modle nul} Que peut-tre le modle nul ?