Download - Fouille de données sur des graphes : Introduction

Transcript
Page 1: Fouille de données sur des graphes : Introduction

Fouille de données sur des graphes : Introduction

Nathalie Villa-Vialaneixhttp://www.nathalievilla.org

Toulouse School of Economics

Groupe de travail BioPuces, INRA de Castanet24 avril 2009

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 1 / 27

Page 2: Fouille de données sur des graphes : Introduction

Sommaire

1 Introduction et vocabulaire

2 Dessiner un grand graphe

3 Exemples

4 Pourquoi la classification des sommets ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 2 / 27

Page 3: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Sommaire

1 Introduction et vocabulaire

2 Dessiner un grand graphe

3 Exemples

4 Pourquoi la classification des sommets ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 3 / 27

Page 4: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Qu’est-ce qu’un graphe ?Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27

Page 5: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Qu’est-ce qu’un graphe ?Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

Sommets (ou noeuds) / en anglais : vertices, nodes

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27

Page 6: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Qu’est-ce qu’un graphe ?Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

SommetsArêtes / en anglais : edges

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27

Page 7: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Qu’est-ce qu’un graphe ?Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 4 / 27

Page 8: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Notations

Dans la suite, on notera G un graphe• de sommets V = {x1, . . . , xn} (et de taille n)

• dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

• dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27

Page 9: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Notations

Dans la suite, on notera G un graphe• de sommets V = {x1, . . . , xn} (et de taille n)

• dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

• dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27

Page 10: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Notations

Dans la suite, on notera G un graphe• de sommets V = {x1, . . . , xn} (et de taille n)

• dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

• dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27

Page 11: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Notations

Dans la suite, on notera G un graphe• de sommets V = {x1, . . . , xn} (et de taille n)

• dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

• dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 5 / 27

Page 12: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Quelques notions élémentaires : le degréDéfinition

On appelle degré du sommet xi le nombre di =∑

j,i wij .

Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi .

Dans les réseaux sociaux, la distribution des degrés suit généralementune loi de puissance (graphes sans échelle typique).

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27

Page 13: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Quelques notions élémentaires : le degréDéfinition

On appelle degré du sommet xi le nombre di =∑

j,i wij .Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi .

Dans les réseaux sociaux, la distribution des degrés suit généralementune loi de puissance (graphes sans échelle typique).

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27

Page 14: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Quelques notions élémentaires : le degréDéfinition

On appelle degré du sommet xi le nombre di =∑

j,i wij .Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi .

Dans les réseaux sociaux, la distribution des degrés suit généralementune loi de puissance (graphes sans échelle typique).

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 6 / 27

Page 15: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Quelques notions élémentaires : la densité

Définition

On appelle densité d’un graphe non pondéré∑ni,j=1 I{(xi ,xj)∈E}

n(n − 1).

Dans le cas d’un graphe pondéré, on peut généraliser cette notion par∑ni,j=1 wij

n(n−1)mais elle n’est plus nécessairement comprise entre 0 et 1 !!

Dans les réseaux sociaux, on observe souvent un effet “petit monde” :

• faible densité globale (de l’ordre de 5% - 10%) ;

• forte densité locale : la densité moyenne du sous-graphe des voisinsde chaque sommet peut être supérieure à 70 %.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27

Page 16: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Quelques notions élémentaires : la densité

Définition

On appelle densité d’un graphe non pondéré∑ni,j=1 I{(xi ,xj)∈E}

n(n − 1).

Dans le cas d’un graphe pondéré, on peut généraliser cette notion par∑ni,j=1 wij

n(n−1)mais elle n’est plus nécessairement comprise entre 0 et 1 !!

Dans les réseaux sociaux, on observe souvent un effet “petit monde” :

• faible densité globale (de l’ordre de 5% - 10%) ;

• forte densité locale : la densité moyenne du sous-graphe des voisinsde chaque sommet peut être supérieure à 70 %.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27

Page 17: Fouille de données sur des graphes : Introduction

Introduction et vocabulaire

Quelques notions élémentaires : la densité

Définition

On appelle densité d’un graphe non pondéré∑ni,j=1 I{(xi ,xj)∈E}

n(n − 1).

Dans le cas d’un graphe pondéré, on peut généraliser cette notion par∑ni,j=1 wij

n(n−1)mais elle n’est plus nécessairement comprise entre 0 et 1 !!

Dans les réseaux sociaux, on observe souvent un effet “petit monde” :

• faible densité globale (de l’ordre de 5% - 10%) ;

• forte densité locale : la densité moyenne du sous-graphe des voisinsde chaque sommet peut être supérieure à 70 %.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 7 / 27

Page 18: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Sommaire

1 Introduction et vocabulaire

2 Dessiner un grand graphe

3 Exemples

4 Pourquoi la classification des sommets ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 8 / 27

Page 19: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Algorithmes de forces

Au delà de quelques dizaines de sommets, nécessité de penser à laposition des sommets doit être pensée pour rendre le graphe lisible etinterprétable pour l’œil.

Utilisation courante d’algorithmes de forces (Fruchterman & Reingold,par exemple) qui simulent des systèmes de ressorts sur les arêtes.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27

Page 20: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Algorithmes de forces

Au delà de quelques dizaines de sommets, nécessité de penser à laposition des sommets doit être pensée pour rendre le graphe lisible etinterprétable pour l’œil.Utilisation courante d’algorithmes de forces (Fruchterman & Reingold,par exemple) qui simulent des systèmes de ressorts sur les arêtes.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 9 / 27

Page 21: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Représentation simple

Coloration des sommets et des arêtes

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27

Page 22: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Pondération des arêtes

Coloration des sommets et des arêtes

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27

Page 23: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Étiquetage des sommets

Coloration des sommets et des arêtes

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27

Page 24: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Coloration des sommets

Coloration des sommets et des arêtes

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27

Page 25: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Coloration des sommets et des arêtesBioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27

Page 26: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Comment réaliser ces représentations ?• Package igraph de R : pas mal de fonctionnalités mais pondération

des arêtes pas correctement prise en compte et pas d’interactivité surles graphes.

• Logiciel Tulip ([Auber, 2003]) : Interactif, pas mal de fonctionnalitésmais permet uniquement la représentation et nécessite l’importationdes graphe dans un format spécial.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27

Page 27: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Comment réaliser ces représentations ?

• Package igraph de R : pas mal de fonctionnalités mais pondérationdes arêtes pas correctement prise en compte et pas d’interactivité surles graphes.

• Logiciel Tulip ([Auber, 2003]) : Interactif, pas mal de fonctionnalitésmais permet uniquement la représentation et nécessite l’importationdes graphe dans un format spécial.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 11 / 27

Page 28: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Qu’est-ce qu’une bonne représentation ?

En général, un critère admis pour mesurer la qualité de la représentationest le nombre d’arêtes coupées dans la figure :

C =12

∑e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )∈V

wi1,j1wi2,j2I{e1 coupe e2}

Problème de ce critère : coûteux à calculer . . .

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27

Page 29: Fouille de données sur des graphes : Introduction

Dessiner un grand graphe

Qu’est-ce qu’une bonne représentation ?

En général, un critère admis pour mesurer la qualité de la représentationest le nombre d’arêtes coupées dans la figure :

C =12

∑e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )∈V

wi1,j1wi2,j2I{e1 coupe e2}

Problème de ce critère : coûteux à calculer . . .

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 12 / 27

Page 30: Fouille de données sur des graphes : Introduction

Exemples

Sommaire

1 Introduction et vocabulaire

2 Dessiner un grand graphe

3 Exemples

4 Pourquoi la classification des sommets ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 13 / 27

Page 31: Fouille de données sur des graphes : Introduction

Exemples

Réseau social I : “Les misérables” (V. Hugo)77 sommets, 254 arêtes, 1

2∑

ij wij = 820 (variant de 1 à 31, entre Cosetteet Valjean), densités : 8,7 % (non pondéré) et 0,560 (pondéré), coefficientde classification (densité locale moyenne) : 49,9 %.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 14 / 27

Page 32: Fouille de données sur des graphes : Introduction

Exemples

Réseau social II : Réseau de citations scientifiques[Newman et al., 2006]379 sommets, 914 arêtes, 1

2∑

ij wij = 489, 5 (variant de 0,125 à 4,75),densité : 1,3 % (non pondéré), coefficient de classification : 22,1 %.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 15 / 27

Page 33: Fouille de données sur des graphes : Introduction

Exemples

Réseau social III : Réseau issu d’un grand corpusmédiéval [Boulet et al., 2008]615 sommets, 4 193 arêtes, 1

2∑

ij wij = 40 329 (50 % des arêtes ont unpoids de 1 et moins de 2 % un poids supérieur à 100), densité : 2,2 %(non pondéré), coefficient de classification : 77 %.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 16 / 27

Page 34: Fouille de données sur des graphes : Introduction

Exemples

Réseaux génétiques

Données :

• Expressions de gènes différentiellement exprimés chez le porc etchez le bovin.

• Expressions de gènes différentiellement exprimés pour des folliculesPFN, PFA, GFN.

Comment définir un réseau d’interaction pour chacun de ces cas ?Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27

Page 35: Fouille de données sur des graphes : Introduction

Exemples

Réseaux génétiques

Données :

• Expressions de gènes différentiellement exprimés chez le porc etchez le bovin.

• Expressions de gènes différentiellement exprimés pour des folliculesPFN, PFA, GFN.

Comment définir un réseau d’interaction pour chacun de ces cas ?

Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27

Page 36: Fouille de données sur des graphes : Introduction

Exemples

Réseaux génétiques

Données :

• Expressions de gènes différentiellement exprimés chez le porc etchez le bovin.

• Expressions de gènes différentiellement exprimés pour des folliculesPFN, PFA, GFN.

Comment définir un réseau d’interaction pour chacun de ces cas ?Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.

Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27

Page 37: Fouille de données sur des graphes : Introduction

Exemples

Réseaux génétiques

Données :

• Expressions de gènes différentiellement exprimés chez le porc etchez le bovin.

• Expressions de gènes différentiellement exprimés pour des folliculesPFN, PFA, GFN.

Comment définir un réseau d’interaction pour chacun de ces cas ?Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.

Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27

Page 38: Fouille de données sur des graphes : Introduction

Exemples

Réseaux génétiques

Données :

• Expressions de gènes différentiellement exprimés chez le porc etchez le bovin.

• Expressions de gènes différentiellement exprimés pour des folliculesPFN, PFA, GFN.

Comment définir un réseau d’interaction pour chacun de ces cas ?Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 17 / 27

Page 39: Fouille de données sur des graphes : Introduction

Exemples

Exemple de la différence entre les deux approches

Seuil = 0,2 Seuil = 0,65

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 18 / 27

Page 40: Fouille de données sur des graphes : Introduction

Exemples

Réseau de gènes Bovin différentiellement avec le Porc(seuil 0,015)460 sommets, 3 903 arêtes, 1

2∑

ij wij = 70, 38, densité : 3,7 % (nonpondéré), coefficient de classification : 20,6 %, degré moyen : 0,31.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 19 / 27

Page 41: Fouille de données sur des graphes : Introduction

Exemples

Réseau de gènes Porc différentiellement avec le Bovin(seuil 0,02)390 sommets, 3 320 arêtes, 1

2∑

ij wij = 81, 6, densité : 4,2 % (nonpondéré), coefficient de classification : 18,7 %, degré moyen : 0,42.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 20 / 27

Page 42: Fouille de données sur des graphes : Introduction

Exemples

Réseau de gènes de petits follicules atritiques (seuil0,013)459 sommets, 6 478 arêtes, 1

2∑

ij wij = 105, 4, densité : 6,2 % (nonpondéré), coefficient de classification : 25,0 %, degré moyen : 0,46.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 21 / 27

Page 43: Fouille de données sur des graphes : Introduction

Exemples

Réseau de gènes de petits follicules sains (seuil 0,013)360 sommets, 4 401arêtes, 1

2∑

ij wij = 72, 1, densité : 6,8 % (nonpondéré), coefficient de classification : 29,2 %, degré moyen : 0,40.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 22 / 27

Page 44: Fouille de données sur des graphes : Introduction

Exemples

Réseau de gènes de gros follicules sains (seuil 0,015)325 sommets, 3 526 arêtes, 1

2∑

ij wij = 66, 1, densité : 6,7 % (nonpondéré), coefficient de classification : 26,9 %, degré moyen : 0,41.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 23 / 27

Page 45: Fouille de données sur des graphes : Introduction

Exemples

Problématique et questions

Premières conclusions :

• Les réseaux d’interaction n’ont pas de structure “petit monde”.

• Les structures macroscopiques des deux réseaux (porc et bovin) sonttrès similaires.

Problèmes :

• Quel seuillage des corrélations partielles est adéquat ?

• Les algorithmes de force permettent de visualiser un graphe maisau-delà de quelques dizaines de sommets, la compréhension de lastructure du graphe à partir de cette seule représentation estdifficile.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27

Page 46: Fouille de données sur des graphes : Introduction

Exemples

Problématique et questions

Premières conclusions :

• Les réseaux d’interaction n’ont pas de structure “petit monde”.

• Les structures macroscopiques des deux réseaux (porc et bovin) sonttrès similaires.

Problèmes :

• Quel seuillage des corrélations partielles est adéquat ?

• Les algorithmes de force permettent de visualiser un graphe maisau-delà de quelques dizaines de sommets, la compréhension de lastructure du graphe à partir de cette seule représentation estdifficile.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27

Page 47: Fouille de données sur des graphes : Introduction

Exemples

Problématique et questions

Premières conclusions :

• Les réseaux d’interaction n’ont pas de structure “petit monde”.

• Les structures macroscopiques des deux réseaux (porc et bovin) sonttrès similaires.

Problèmes :

• Quel seuillage des corrélations partielles est adéquat ?

• Les algorithmes de force permettent de visualiser un graphe maisau-delà de quelques dizaines de sommets, la compréhension de lastructure du graphe à partir de cette seule représentation estdifficile.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 24 / 27

Page 48: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Sommaire

1 Introduction et vocabulaire

2 Dessiner un grand graphe

3 Exemples

4 Pourquoi la classification des sommets ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 25 / 27

Page 49: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Fournir une représentation schématique du grapheLe but de la classification de sommets est de mettre en valeur desgroupes de sommets denses et faiblement connectés entre eux.

Ce type de traitement statistique permet de faire ressortir les grandesstructures et les grands ensembles du graphe et aide à l’interprétation.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27

Page 50: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Fournir une représentation schématique du grapheLe but de la classification de sommets est de mettre en valeur desgroupes de sommets denses et faiblement connectés entre eux.Ce type de traitement statistique permet de faire ressortir les grandesstructures et les grands ensembles du graphe et aide à l’interprétation.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27

Page 51: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Fournir une représentation schématique du grapheLe but de la classification de sommets est de mettre en valeur desgroupes de sommets denses et faiblement connectés entre eux.Ce type de traitement statistique permet de faire ressortir les grandesstructures et les grands ensembles du graphe et aide à l’interprétation.

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 26 / 27

Page 52: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Comment mesurer la qualité d’une telle représentation ?

Nous avons retenu trois grands critères de qualité :

• un critère de qualité d’une classification de sommets d’un graphe :la modularité ;

• un critère de densité des groupes : la moyenne de la densitépondérée intra-classes

K∑c=1

|Cc |∑

i,j:xi , xj∈Cc

wij

|Cc | × (|Cc | − 1);

• un critère de visualisation : le nombre d’arêtes coupées.

Questions : Comment combiner ces trois critères ? Comment la taille dela classification K influencent-elles ceux-ci ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27

Page 53: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Comment mesurer la qualité d’une telle représentation ?

Nous avons retenu trois grands critères de qualité :

• un critère de qualité d’une classification de sommets d’un graphe :la modularité ;

• un critère de densité des groupes : la moyenne de la densitépondérée intra-classes

K∑c=1

|Cc |∑

i,j:xi , xj∈Cc

wij

|Cc | × (|Cc | − 1);

• un critère de visualisation : le nombre d’arêtes coupées.

Questions : Comment combiner ces trois critères ? Comment la taille dela classification K influencent-elles ceux-ci ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27

Page 54: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Comment mesurer la qualité d’une telle représentation ?

Nous avons retenu trois grands critères de qualité :

• un critère de qualité d’une classification de sommets d’un graphe :la modularité ;

• un critère de densité des groupes : la moyenne de la densitépondérée intra-classes

K∑c=1

|Cc |∑

i,j:xi , xj∈Cc

wij

|Cc | × (|Cc | − 1);

• un critère de visualisation : le nombre d’arêtes coupées.

Questions : Comment combiner ces trois critères ? Comment la taille dela classification K influencent-elles ceux-ci ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27

Page 55: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Comment mesurer la qualité d’une telle représentation ?

Nous avons retenu trois grands critères de qualité :

• un critère de qualité d’une classification de sommets d’un graphe :la modularité ;

• un critère de densité des groupes : la moyenne de la densitépondérée intra-classes

K∑c=1

|Cc |∑

i,j:xi , xj∈Cc

wij

|Cc | × (|Cc | − 1);

• un critère de visualisation : le nombre d’arêtes coupées.

Questions : Comment combiner ces trois critères ? Comment la taille dela classification K influencent-elles ceux-ci ?

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27

Page 56: Fouille de données sur des graphes : Introduction

Pourquoi la classification des sommets ?

Auber, D. (2003).Tulip : A huge graph visualisation framework.In Mutzel, P. and Jünger, M., editors, Graph Drawing Softwares, Mathematics and Visualization, pages 105–126.Springer-Verlag.

Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).Batch kernel SOM and related laplacian methods for social network analysis.Neurocomputing, 71(7-9):1257–1273.

Newman, M., Barab, A., and Watts, D. (2006).The Structure and Dynamics of Networks.Princeton University Press.

TO BE CONTINUED...

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 27 / 27