Download - Fouille de données sur des graphes : Introduction

Fouille de données sur des graphes : Introduction

Nathalie Villa-Vialaneixhttp://www.nathalievilla.org

Toulouse School of Economics

Groupe de travail BioPuces, INRA de Castanet24 avril 2009

BioPuces (24/04/09) Nathalie Villa Data mining & graphes 1 / 27

Sommaire

1 Introduction et vocabulaire

2 Dessiner un grand graphe

3 Exemples

4 Pourquoi la classification des sommets ?


Introduction et vocabulaire

Sommaire



3 Exemples




Qu’est-ce qu’un graphe ?Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées




Sommets (ou noeuds) / en anglais : vertices, nodes

35

7 6,15

4,35

2

4

3.4





SommetsArêtes / en anglais : edges

35

7 6,15

4,35

2

4

3.4





35

7 6,15

4,35

2

4

3.4




Notations

Dans la suite, on notera G un graphe• de sommets V = {x1, . . . , xn} (et de taille n)

• dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

• dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.



Quelques notions élémentaires : le degréDéfinition

On appelle degré du sommet xi le nombre di =∑

j,i wij .

Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi .

Dans les réseaux sociaux, la distribution des degrés suit généralementune loi de puissance (graphes sans échelle typique).



Quelques notions élémentaires : le degréDéfinition

On appelle degré du sommet xi le nombre di =∑

j,i wij .Dans le cadre non pondéré, c’est le nombre d’arêtes reliées à xi .

Dans les réseaux sociaux, la distribution des degrés suit généralementune loi de puissance (graphes sans échelle typique).



Quelques notions élémentaires : la densité

Définition

On appelle densité d’un graphe non pondéré∑ni,j=1 I{(xi ,xj)∈E}

n(n − 1).

Dans le cas d’un graphe pondéré, on peut généraliser cette notion par∑ni,j=1 wij

n(n−1)mais elle n’est plus nécessairement comprise entre 0 et 1 !!

Dans les réseaux sociaux, on observe souvent un effet “petit monde” :

• faible densité globale (de l’ordre de 5% - 10%) ;

• forte densité locale : la densité moyenne du sous-graphe des voisinsde chaque sommet peut être supérieure à 70 %.


Dessiner un grand graphe

Sommaire



3 Exemples




Algorithmes de forces

Au delà de quelques dizaines de sommets, nécessité de penser à laposition des sommets doit être pensée pour rendre le graphe lisible etinterprétable pour l’œil.

Utilisation courante d’algorithmes de forces (Fruchterman & Reingold,par exemple) qui simulent des systèmes de ressorts sur les arêtes.



Algorithmes de forces

Au delà de quelques dizaines de sommets, nécessité de penser à laposition des sommets doit être pensée pour rendre le graphe lisible etinterprétable pour l’œil.Utilisation courante d’algorithmes de forces (Fruchterman & Reingold,par exemple) qui simulent des systèmes de ressorts sur les arêtes.



Représentation simple

Coloration des sommets et des arêtes



Pondération des arêtes




Étiquetage des sommets




Coloration des sommets




Coloration des sommets et des arêtesBioPuces (24/04/09) Nathalie Villa Data mining & graphes 10 / 27


Comment réaliser ces représentations ?• Package igraph de R : pas mal de fonctionnalités mais pondération

des arêtes pas correctement prise en compte et pas d’interactivité surles graphes.

• Logiciel Tulip ([Auber, 2003]) : Interactif, pas mal de fonctionnalitésmais permet uniquement la représentation et nécessite l’importationdes graphe dans un format spécial.



Comment réaliser ces représentations ?

• Package igraph de R : pas mal de fonctionnalités mais pondérationdes arêtes pas correctement prise en compte et pas d’interactivité surles graphes.

• Logiciel Tulip ([Auber, 2003]) : Interactif, pas mal de fonctionnalitésmais permet uniquement la représentation et nécessite l’importationdes graphe dans un format spécial.



Qu’est-ce qu’une bonne représentation ?

En général, un critère admis pour mesurer la qualité de la représentationest le nombre d’arêtes coupées dans la figure :

C =12

∑e1=(xi1 ,xj1 ),e2=(xi2 ,xj2 )∈V

wi1,j1wi2,j2I{e1 coupe e2}

Problème de ce critère : coûteux à calculer . . .


Exemples

Sommaire



3 Exemples



Exemples

Réseau social I : “Les misérables” (V. Hugo)77 sommets, 254 arêtes, 1

2∑

ij wij = 820 (variant de 1 à 31, entre Cosetteet Valjean), densités : 8,7 % (non pondéré) et 0,560 (pondéré), coefficientde classification (densité locale moyenne) : 49,9 %.


Exemples

Réseau social II : Réseau de citations scientifiques[Newman et al., 2006]379 sommets, 914 arêtes, 1

2∑

ij wij = 489, 5 (variant de 0,125 à 4,75),densité : 1,3 % (non pondéré), coefficient de classification : 22,1 %.


Exemples

Réseau social III : Réseau issu d’un grand corpusmédiéval [Boulet et al., 2008]615 sommets, 4 193 arêtes, 1

2∑

ij wij = 40 329 (50 % des arêtes ont unpoids de 1 et moins de 2 % un poids supérieur à 100), densité : 2,2 %(non pondéré), coefficient de classification : 77 %.


Exemples

Réseaux génétiques

Données :

• Expressions de gènes différentiellement exprimés chez le porc etchez le bovin.

• Expressions de gènes différentiellement exprimés pour des folliculesPFN, PFA, GFN.

Comment définir un réseau d’interaction pour chacun de ces cas ?Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.


Exemples


Données :



Comment définir un réseau d’interaction pour chacun de ces cas ?

Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.


Exemples


Données :



Comment définir un réseau d’interaction pour chacun de ces cas ?Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.

Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.


Exemples


Données :



Comment définir un réseau d’interaction pour chacun de ces cas ?Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.

Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.


Exemples


Données :



Comment définir un réseau d’interaction pour chacun de ces cas ?Idée naïve : Calculer la matrice de corrélation et seuiller cette matrice.Ne marche pas !! Car les corrélations sont regardées dans leur ensemble: si les variables x et z et les variables y et z sont fortement corréléesalors la corrélation entre x et y sera forte sans réalité biologique.Solution : Utiliser un modèle graphique gaussien qui détermine lescorrélations partielles, i.e., les corrélations entre deux variablesindépendamment des autres variables du jeu de données.


Exemples

Exemple de la différence entre les deux approches

Seuil = 0,2 Seuil = 0,65


Exemples

Réseau de gènes Bovin différentiellement avec le Porc(seuil 0,015)460 sommets, 3 903 arêtes, 1

2∑

ij wij = 70, 38, densité : 3,7 % (nonpondéré), coefficient de classification : 20,6 %, degré moyen : 0,31.


Exemples

Réseau de gènes Porc différentiellement avec le Bovin(seuil 0,02)390 sommets, 3 320 arêtes, 1

2∑



Exemples

Réseau de gènes de petits follicules atritiques (seuil0,013)459 sommets, 6 478 arêtes, 1

2∑



Exemples

Réseau de gènes de petits follicules sains (seuil 0,013)360 sommets, 4 401arêtes, 1

2∑



Exemples

Réseau de gènes de gros follicules sains (seuil 0,015)325 sommets, 3 526 arêtes, 1

2∑



Exemples

Problématique et questions

Premières conclusions :

• Les réseaux d’interaction n’ont pas de structure “petit monde”.

• Les structures macroscopiques des deux réseaux (porc et bovin) sonttrès similaires.

Problèmes :

• Quel seuillage des corrélations partielles est adéquat ?

• Les algorithmes de force permettent de visualiser un graphe maisau-delà de quelques dizaines de sommets, la compréhension de lastructure du graphe à partir de cette seule représentation estdifficile.


Pourquoi la classification des sommets ?

Sommaire



3 Exemples




Fournir une représentation schématique du grapheLe but de la classification de sommets est de mettre en valeur desgroupes de sommets denses et faiblement connectés entre eux.

Ce type de traitement statistique permet de faire ressortir les grandesstructures et les grands ensembles du graphe et aide à l’interprétation.



Fournir une représentation schématique du grapheLe but de la classification de sommets est de mettre en valeur desgroupes de sommets denses et faiblement connectés entre eux.Ce type de traitement statistique permet de faire ressortir les grandesstructures et les grands ensembles du graphe et aide à l’interprétation.



Comment mesurer la qualité d’une telle représentation ?

Nous avons retenu trois grands critères de qualité :

• un critère de qualité d’une classification de sommets d’un graphe :la modularité ;

• un critère de densité des groupes : la moyenne de la densitépondérée intra-classes

K∑c=1

|Cc |∑

i,j:xi , xj∈Cc

wij

|Cc | × (|Cc | − 1);

• un critère de visualisation : le nombre d’arêtes coupées.

Questions : Comment combiner ces trois critères ? Comment la taille dela classification K influencent-elles ceux-ci ?



Auber, D. (2003).Tulip : A huge graph visualisation framework.In Mutzel, P. and Jünger, M., editors, Graph Drawing Softwares, Mathematics and Visualization, pages 105–126.Springer-Verlag.

Boulet, R., Jouve, B., Rossi, F., and Villa, N. (2008).Batch kernel SOM and related laplacian methods for social network analysis.Neurocomputing, 71(7-9):1257–1273.

Newman, M., Barab, A., and Watts, D. (2006).The Structure and Dynamics of Networks.Princeton University Press.

TO BE CONTINUED...