Fouille de données pour des grands graphes

download Fouille de données pour des grands graphes

of 73

  • date post

    11-May-2015
  • Category

    Science

  • view

    158
  • download

    4

Embed Size (px)

description

Séminaire de statistiques et applications, Institut de Mathématiques de Luminy 18 décembre 2008

Transcript of Fouille de données pour des grands graphes

  • 1.Fouille de donnes sur des grands graphes Nathalie Villa-Vialaneix http://www.nathalievilla.org Toulouse School of Economics Sminaire de Statistique et Applications, Luminy 18 dcembre 2008 Luminy (18/12/08) Nathalie Villa Data mining & graphes 1 / 31

2. Sommaire 1 Motivations 2 Mthodes noyau pour graphes 3 Optimisation de la modularit Luminy (18/12/08) Nathalie Villa Data mining & graphes 2 / 31 3. Motivations Sommaire 1 Motivations 2 Mthodes noyau pour graphes 3 Optimisation de la modularit Luminy (18/12/08) Nathalie Villa Data mining & graphes 3 / 31 4. Motivations Comprendre la structure de grands graphes Quelques exemples de problmes modliss par de grands graphes 1 Rseaux sociaux rseaux de connaissances rseaux de linternet rseaux de citations Luminy (18/12/08) Nathalie Villa Data mining & graphes 4 / 31 5. Motivations Comprendre la structure de grands graphes Quelques exemples de problmes modliss par de grands graphes 1 Rseaux sociaux rseaux de connaissances rseaux de linternet rseaux de citations 2 Rseaux biologiques rseaux dinteractions de protines, de gnes Luminy (18/12/08) Nathalie Villa Data mining & graphes 4 / 31 6. Motivations Comprendre la structure de grands graphes Quelques exemples de problmes modliss par de grands graphes 1 Rseaux sociaux rseaux de connaissances rseaux de linternet rseaux de citations 2 Rseaux biologiques rseaux dinteractions de protines, de gnes 3 documents, prfrences (graphes bipartis), . . . Luminy (18/12/08) Nathalie Villa Data mining & graphes 4 / 31 7. Motivations Comprendre la structure de grands graphes Quelques exemples de problmes modliss par de grands graphes 1 Rseaux sociaux rseaux de connaissances rseaux de linternet rseaux de citations 2 Rseaux biologiques rseaux dinteractions de protines, de gnes 3 documents, prfrences (graphes bipartis), . . . Problmes rencontrs lors de la manipulation de ce type de donnes : comment reprsenter le graphe de manire lisible et interprtable ? quelles mthodes de fouille de donnes car aucune structure euclidienne ? taille des donnes (plusieurs centaines ou plusieurs milliers de sommets...) ncessite de faire attention la complexit. Luminy (18/12/08) Nathalie Villa Data mining & graphes 4 / 31 8. Motivations Exemple rel 1 : un graphe venu du Moyen-ge Un trs grand corpus Aux archives de Cahors (Lot), corpus de 5000 contrats agraires. Ces contrats viennent de 4 seigneuries (environ 25 petits villages au total) du Sud-Ouest de la France ; ont t tablis entre 1240 et 1520 (avant et aprs la guerre de cent ans) ; Luminy (18/12/08) Nathalie Villa Data mining & graphes 5 / 31 9. Motivations Exemple rel 1 : un graphe venu du Moyen-ge Un trs grand corpus Aux archives de Cahors (Lot), corpus de 5000 contrats agraires. Ces contrats viennent de 4 seigneuries (environ 25 petits villages au total) du Sud-Ouest de la France ; ont t tablis entre 1240 et 1520 (avant et aprs la guerre de cent ans) ; Ce corpus intresse les historiens car : seul un petit nombre de documents du Moyen-ge parlent de la vie quotidienne des paysans ; il peut permettre dtudier sans a priori lvolution de la structure du rseau social avant et aprs la guerre de 100 ans. Luminy (18/12/08) Nathalie Villa Data mining & graphes 5 / 31 10. Motivations Modlisation du rseau social par un graphe partir de 1000 contracts datant davant la guerre de 100 ans, nous avons modlis le rseau social par un graphe pondr : sommets : les paysans nomms dans les contrats (sans les nobles); Luminy (18/12/08) Nathalie Villa Data mining & graphes 6 / 31 11. Motivations Modlisation du rseau social par un graphe partir de 1000 contracts datant davant la guerre de 100 ans, nous avons modlis le rseau social par un graphe pondr : sommets : les paysans nomms dans les contrats (sans les nobles); 2 paysans sont lis par une arte si : ils apparaissent ensemble dans le mme contrat ; ils apparaissent dans deux contrats diffrents dans lesquels ils sont aflis au mme seigneur et qui diffrent lun de lautre de moins de 15 ans. Luminy (18/12/08) Nathalie Villa Data mining & graphes 6 / 31 12. Motivations Modlisation du rseau social par un graphe partir de 1000 contracts datant davant la guerre de 100 ans, nous avons modlis le rseau social par un graphe pondr : sommets : les paysans nomms dans les contrats (sans les nobles); 2 paysans sont lis par une arte si : ils apparaissent ensemble dans le mme contrat ; ils apparaissent dans deux contrats diffrents dans lesquels ils sont aflis au mme seigneur et qui diffrent lun de lautre de moins de 15 ans. les artes du graphe sont pondrs par (wi,j)i,j=1...,n qui correspondent au nombre de contrats satisfaisant ces conditions. Les poids vrient : wi,j = wj,i 0 wi,i = 0. Luminy (18/12/08) Nathalie Villa Data mining & graphes 6 / 31 13. Motivations Modlisation du rseau social par un graphe partir de 1000 contracts datant davant la guerre de 100 ans, nous avons modlis le rseau social par un graphe pondr : sommets : les paysans nomms dans les contrats (sans les nobles); 2 paysans sont lis par une arte si : ils apparaissent ensemble dans le mme contrat ; ils apparaissent dans deux contrats diffrents dans lesquels ils sont aflis au mme seigneur et qui diffrent lun de lautre de moins de 15 ans. les artes du graphe sont pondrs par (wi,j)i,j=1...,n qui correspondent au nombre de contrats satisfaisant ces conditions. Les poids vrient : wi,j = wj,i 0 wi,i = 0. But : Fournir aux historiens des outils pour les aider comprendre la structure de ce rseau social. Luminy (18/12/08) Nathalie Villa Data mining & graphes 6 / 31 14. Motivations Premire description du graphe La plus grande composante connexe du rseau social mdival : a 615 sommets (i.e. 615 paysans diffrents cits dans les contrats), Luminy (18/12/08) Nathalie Villa Data mining & graphes 7 / 31 15. Motivations Premire description du graphe La plus grande composante connexe du rseau social mdival : a 615 sommets (i.e. 615 paysans diffrents cits dans les contrats), a 4193 artes dont la somme des poids est 40 329 mais 50% de ces artes ont un poids gal 1 et moins de 2% ont un poids suprieur 100, Luminy (18/12/08) Nathalie Villa Data mining & graphes 7 / 31 16. Motivations Premire description du graphe La plus grande composante connexe du rseau social mdival : a 615 sommets (i.e. 615 paysans diffrents cits dans les contrats), a 4193 artes dont la somme des poids est 40 329 mais 50% de ces artes ont un poids gal 1 et moins de 2% ont un poids suprieur 100, est un graphe petit monde avec une petite densit globale (2.2%) et une grande connectivit locale (77%), Luminy (18/12/08) Nathalie Villa Data mining & graphes 7 / 31 17. Motivations Premire description du graphe La plus grande composante connexe du rseau social mdival : a 615 sommets (i.e. 615 paysans diffrents cits dans les contrats), a 4193 artes dont la somme des poids est 40 329 mais 50% de ces artes ont un poids gal 1 et moins de 2% ont un poids suprieur 100, est un graphe petit monde avec une petite densit globale (2.2%) et une grande connectivit locale (77%), est un graphe sans chelle typique. Luminy (18/12/08) Nathalie Villa Data mining & graphes 7 / 31 18. Motivations Exemple rel 2 : Rseau de collaborations scientiques [Newman, 2006] Un rseau de collaborations scientiques autour de la thmatique des rseaux sociaux : graphe connexe pondr avec 379 sommets. Luminy (18/12/08) Nathalie Villa Data mining & graphes 8 / 31 19. Motivations Point de vue adopt [Newman and Girvan, 2004] reducing [the] level of complexity [of a network] to one that can be interpreted readily by the human eye, will be invaluable in helping us to understand the large-scale structure of these new network data Luminy (18/12/08) Nathalie Villa Data mining & graphes 9 / 31 20. Motivations Point de vue adopt [Newman and Girvan, 2004] reducing [the] level of complexity [of a network] to one that can be interpreted readily by the human eye, will be invaluable in helping us to understand the large-scale structure of these new network data Mthodologie : Mise en valeur de groupes homognes (ou fortement connects) lis une visualisation permettant de comprendre facilement les relations entre ces groupes : outils statistiques lis la classication (de sommets dun graphe) et/ou lorganisation. Luminy (18/12/08) Nathalie Villa Data mining & graphes 9 / 31 21. Motivations Point de vue adopt [Newman and Girvan, 2004] reducing [the] level of complexity [of a network] to one that can be interpreted readily by the human eye, will be invaluable in helping us to understand the large-scale structure of these new network data Mthodologie : Mise en valeur de groupes homognes (ou fortement connects) lis une visualisation permettant de comprendre facilement les relations entre ces groupes : outils statistiques lis la classication (de sommets dun graphe) et/ou lorganisation. Problmatique de la recherche de communauts: groupes sociaux homognes, groupes de protines, de gnes fortement lis, etc... Luminy (18/12/08) Nathalie Villa Data mining & graphes 9 / 31 22. Mthodes noyau pour graphes Sommaire 1 Motivations 2 Mthodes noyau pour graphes 3 Optimisation de la modularit Luminy (18/12/08) Nathalie Villa Data mining & graphes 10 / 31 23. Mthodes noyau pour graphes Principe gnral de Batch kernel SOM [Villa and Rossi, 2007, Boulet et al., 2008] Les sommets du graphe sont plongs dans un espace euclidien (par le biais dun noyau). Luminy (18/12/08) Nathalie Villa Data mining & graphes 11 / 31 24. Mthodes noyau pour graphes Principe gnral de Batch kernel SOM [Villa and Rossi, 2007, Boulet et al., 2008] Chaque sommet xi est assign un neurone (une classe) de la carte de Kohonen, f(xi). Les neurones sont dpendants les un des autres par une relation de voisinage (distance: d). Luminy (18/12/08) Nathalie Villa Data mining & graphes 11 / 31 25. Mthodes n