Fouille de données sur des graphes : Introduction

download Fouille de données sur des graphes : Introduction

of 56

  • date post

    11-May-2015
  • Category

    Science

  • view

    193
  • download

    0

Embed Size (px)

description

Groupe de travail BioPuces, INRA d’Auzeville April 24th, 2009

Transcript of Fouille de données sur des graphes : Introduction

  • 1.Fouille de donnes sur des graphes : Introduction Nathalie Villa-Vialaneix http://www.nathalievilla.org Toulouse School of Economics Groupe de travail BioPuces, INRA de Castanet 24 avril 2009 BioPuces (24/04/09) Nathalie Villa Data mining & graphes 1 / 27

2. Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classication des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 2 / 27 3. Introduction et vocabulaire Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classication des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 3 / 27 4. Introduction et vocabulaire Quest-ce quun graphe ? Structure naturelle pour modliser des phnomnes de relations entre individus, objets ... BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27 5. Introduction et vocabulaire Quest-ce quun graphe ? Structure naturelle pour modliser des phnomnes de relations entre individus, objets ... Sommets (ou noeuds) / en anglais : vertices, nodes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27 6. Introduction et vocabulaire Quest-ce quun graphe ? Structure naturelle pour modliser des phnomnes de relations entre individus, objets ... Sommets Artes / en anglais : edges BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27 7. Introduction et vocabulaire Quest-ce quun graphe ? Structure naturelle pour modliser des phnomnes de relations entre individus, objets ... 3 5 7 6,15 4,35 2 4 3.4 Sommets Artes ventuellement pondres BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27 8. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27 9. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont lensemble des artes est not E. E est donc un sous-ensemble de V V BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27 10. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont lensemble des artes est not E. E est donc un sous-ensemble de V V dont les artes sont pondres par la matrice de poids W telle que i, j = 1, . . . , n, wii = 0, wij = wji 0, wij > 0 (xi, xj) E BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27 11. Introduction et vocabulaire Notations Dans la suite, on notera G un graphe de sommets V = {x1, . . . , xn} (et de taille n) dont lensemble des artes est not E. E est donc un sous-ensemble de V V dont les artes sont pondres par la matrice de poids W telle que i, j = 1, . . . , n, wii = 0, wij = wji 0, wij > 0 (xi, xj) E Dans un graphe non pondr, on convient que wij {0; 1}. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27 12. Introduction et vocabulaire Quelques notions lmentaires : le degr Dnition On appelle degr du sommet xi le nombre di = j i wij. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27 13. Introduction et vocabulaire Quelques notions lmentaires : le degr Dnition On appelle degr du sommet xi le nombre di = j i wij. Dans le cadre non pondr, cest le nombre dartes relies xi. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27 14. Introduction et vocabulaire Quelques notions lmentaires : le degr Dnition On appelle degr du sommet xi le nombre di = j i wij. Dans le cadre non pondr, cest le nombre dartes relies xi. Dans les rseaux sociaux, la distribution des degrs suit gnralement une loi de puissance (graphes sans chelle typique). BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27 15. Introduction et vocabulaire Quelques notions lmentaires : la densit Dnition On appelle densit dun graphe non pondr n i,j=1 I{(xi,xj)E} n(n 1) . BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27 16. Introduction et vocabulaire Quelques notions lmentaires : la densit Dnition On appelle densit dun graphe non pondr n i,j=1 I{(xi,xj)E} n(n 1) . Dans le cas dun graphe pondr, on peut gnraliser cette notion par n i,j=1 wij n(n1) mais elle nest plus ncessairement comprise entre 0 et 1 !! BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27 17. Introduction et vocabulaire Quelques notions lmentaires : la densit Dnition On appelle densit dun graphe non pondr n i,j=1 I{(xi,xj)E} n(n 1) . Dans le cas dun graphe pondr, on peut gnraliser cette notion par n i,j=1 wij n(n1) mais elle nest plus ncessairement comprise entre 0 et 1 !! Dans les rseaux sociaux, on observe souvent un effet petit monde : faible densit globale (de lordre de 5% - 10%) ; forte densit locale : la densit moyenne du sous-graphe des voisins de chaque sommet peut tre suprieure 70 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27 18. Dessiner un grand graphe Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classication des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 8 / 27 19. Dessiner un grand graphe Algorithmes de forces Au del de quelques dizaines de sommets, ncessit de penser la position des sommets doit tre pense pour rendre le graphe lisible et interprtable pour lil. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27 20. Dessiner un grand graphe Algorithmes de forces Au del de quelques dizaines de sommets, ncessit de penser la position des sommets doit tre pense pour rendre le graphe lisible et interprtable pour lil. Utilisation courante dalgorithmes de forces (Fruchterman & Reingold, par exemple) qui simulent des systmes de ressorts sur les artes. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27 21. Dessiner un grand graphe Reprsentation simple BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27 22. Dessiner un grand graphe Pondration des artes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27 23. Dessiner un grand graphe tiquetage des sommets BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27 24. Dessiner un grand graphe Coloration des sommets BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27 25. Dessiner un grand graphe Coloration des sommets et des artes BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27 26. Dessiner un grand graphe Comment raliser ces reprsentations ? Package igraph de R : pas mal de fonctionnalits mais pondration des artes pas correctement prise en compte et pas dinteractivit sur les graphes. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27 27. Dessiner un grand graphe Comment raliser ces reprsentations ? Package igraph de R : pas mal de fonctionnalits mais pondration des artes pas correctement prise en compte et pas dinteractivit sur les graphes. Logiciel Tulip ([Auber, 2003]) : Interactif, pas mal de fonctionnalits mais permet uniquement la reprsentation et ncessite limportation des graphe dans un format spcial. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27 28. Dessiner un grand graphe Quest-ce quune bonne reprsentation ? En gnral, un critre admis pour mesurer la qualit de la reprsentation est le nombre dartes coupes dans la gure : C = 1 2 e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )V wi1,j1 wi2,j2 I{e1 coupe e2} BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27 29. Dessiner un grand graphe Quest-ce quune bonne reprsentation ? En gnral, un critre admis pour mesurer la qualit de la reprsentation est le nombre dartes coupes dans la gure : C = 1 2 e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )V wi1,j1 wi2,j2 I{e1 coupe e2} Problme de ce critre : coteux calculer . . . BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27 30. Exemples Sommaire 1 Introduction et vocabulaire 2 Dessiner un grand graphe 3 Exemples 4 Pourquoi la classication des sommets ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 13 / 27 31. Exemples Rseau social I : Les misrables (V. Hugo) 77 sommets, 254 artes, 1 2 ij wij = 820 (variant de 1 31, entre Cosette et Valjean), densits : 8,7 % (non pondr) et 0,560 (pondr), coefcient de classication (densit locale moyenne) : 49,9 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 14 / 27 32. Exemples Rseau social II : Rseau de citations scientiques [Newman et al., 2006] 379 sommets, 914 artes, 1 2 ij wij = 489, 5 (variant de 0,125 4,75), densit : 1,3 % (non pondr), coefcient de classication : 22,1 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 15 / 27 33. Exemples Rseau social III : Rseau issu dun grand corpus mdival [Boulet et al., 2008] 615 sommets, 4 193 artes, 1 2 ij wij = 40 329 (50 % des artes ont un poids de 1 et moins de 2 % un poids suprieur 100), densit : 2,2 % (non pondr), coefcient de classication : 77 %. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 16 / 27 34. Exemples Rseaux gntiques Donnes : Expressions de gnes diffrentiellement exprims chez le porc et chez le bovin. Expressions de gnes diffrentiellement exprims pour des follicules PFN, PFA, GFN. BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27 35. Exemples Rseaux gntiques Donnes : Expressions de gnes diffrentiellement exprims chez le porc et chez le bovin. Expressions de gnes diffrentiellement exprims pour des follicules PFN, PFA, GFN. Comment dnir un rseau dinteraction pour chacun de ces cas ? BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27 36. Exemples Rseaux gntiques Donnes : Expressions de gnes diffrentiellement exprims chez le porc et chez le bovin. Expressions de gnes diffrentiellement exprims pour des follicules PFN, PFA, GFN. Comment dnir un rseau dinteraction pour chacun de ces cas ? Ide nave : Calculer la matrice de corrlation et se