Comparaison de méthodes de classification de sommets dans un réseau biologique

50
Comparaison de méthodes de classification de sommets dans un réseau biologique Nathalie Villa-Vialaneix http://www.nathalievilla.org Institut de Mathématiques de Toulouse & IUT de Carcassonne (Université de Perpignan) 30 mars 2010 Séminaire de Biomathématiques, INRA de Castanet 1 / 24 Classification dans les réseaux biologiques N

description

Séminaire BioMaths, INRA d'Auzeville March 30th, 2010

Transcript of Comparaison de méthodes de classification de sommets dans un réseau biologique

Page 1: Comparaison de méthodes de classification de sommets dans un réseau biologique

Comparaison de méthodes declassification de sommets dans un réseau

biologique

Nathalie Villa-Vialaneix

http://www.nathalievilla.org

Institut de Mathématiques de Toulouse &

IUT de Carcassonne (Université de Perpignan)

30 mars 2010

Séminaire de Biomathématiques, INRA de Castanet

1 / 24Classification dans les réseaux biologiques

N

Page 2: Comparaison de méthodes de classification de sommets dans un réseau biologique

Travail réalisé en collaboration avec :

Pierre Cherel

Adrien Gamot

Laurence Liaubet

Fabrice Rossi

Magali SanCristobal

2 / 24Classification dans les réseaux biologiques

N

Page 3: Comparaison de méthodes de classification de sommets dans un réseau biologique

Sommaire

1 Présentation des données

2 Classification des sommets

3 / 24Classification dans les réseaux biologiques

N

Page 4: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Sommaire

1 Présentation des données

2 Classification des sommets

4 / 24Classification dans les réseaux biologiques

N

Page 5: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Production d’animaux F2 avec des fac-teurs de variation génétique

F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)

F1 : 17 ♂ × 62 ♀

F2 : 1200 animaux structurés par lignée de père

Prélèvement de tissus(dont longissimus dorsi)

Mesures phénotypiques (30)(force de cisaillement, PH ...)

Données retenues : Une famille de 56 individus F2 (plus fortevariabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.

5 / 24Classification dans les réseaux biologiques

N

Page 6: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Production d’animaux F2 avec des fac-teurs de variation génétique

F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)

F1 : 17 ♂ × 62 ♀

F2 : 1200 animaux structurés par lignée de père

Prélèvement de tissus(dont longissimus dorsi)

Mesures phénotypiques (30)(force de cisaillement, PH ...)

Données retenues : Une famille de 56 individus F2 (plus fortevariabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.

5 / 24Classification dans les réseaux biologiques

N

Page 7: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Sélection d’un sous-ensemble de gènes: eQTL

QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).

Exemple : QTL pour la force de cisaillement et la tendreté de laviande

eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.

6 / 24Classification dans les réseaux biologiques

N

Page 8: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Sélection d’un sous-ensemble de gènes: eQTL

QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.

Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.

6 / 24Classification dans les réseaux biologiques

N

Page 9: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Sélection d’un sous-ensemble de gènes: eQTL

QTL (Quantitative Trait Locus) : Un QTL correspond à unerégion génomique liée à un caractère (phénotype) d’intérêt(contrôlé génétiquement, dans l’idéal).eQTL (QTL d’expression) : Un eQTL est une positionchromosomique responsable de la variabilité d’expression d’un ouplusieurs gènes.Exemple : Dans le jeu de données 330 gènes sont régulés par uneQTL.Héritabilité : L’héritabilité est la part de variance génétique sur lavariance totale.Gènes retenus : eQTL dont l’héritabilité est supérieure à 10% :128 gènes.

6 / 24Classification dans les réseaux biologiques

N

Page 10: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Des gènes aux réseaux de gènes

Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.

Que modélise un réseau de gènes ?

Sommets : Gènes (128 dansnotre exemple)Arêtes : Corrélation forte dansl’expression des deux gènes

7 / 24Classification dans les réseaux biologiques

N

Page 11: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Des gènes aux réseaux de gènes

Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.Que modélise un réseau de gènes ?

Sommets : Gènes (128 dansnotre exemple)Arêtes : Corrélation forte dansl’expression des deux gènes

7 / 24Classification dans les réseaux biologiques

N

Page 12: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Corrélations, corrélations partielles

Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.

Solution courante : Modèle graphique Gaussien

H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;

Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;

Sous H, πij =−wij√

wiiwjjavec Σ−1 = (wij)i,j .

Problème important : Estimation et inversion de Σ !

8 / 24Classification dans les réseaux biologiques

N

Page 13: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Corrélations, corrélations partielles

Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien

H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;

Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;

Sous H, πij =−wij√

wiiwjjavec Σ−1 = (wij)i,j .

Problème important : Estimation et inversion de Σ !

8 / 24Classification dans les réseaux biologiques

N

Page 14: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Corrélations, corrélations partielles

Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien

H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;

Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;

Sous H, πij =−wij√

wiiwjjavec Σ−1 = (wij)i,j .

Problème important : Estimation et inversion de Σ !

8 / 24Classification dans les réseaux biologiques

N

Page 15: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Corrélations, corrélations partielles

Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien

H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;

Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;

Sous H, πij =−wij√

wiiwjjavec Σ−1 = (wij)i,j .

Problème important : Estimation et inversion de Σ !

8 / 24Classification dans les réseaux biologiques

N

Page 16: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Estimation des corrélations partielles[Schäfer and Strimmer, 2005]

Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter

1 Générer un échantillon bootstrap b∗ dans les données initiales ;

2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;

3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;

Estimer Π par la moyenne des Πb∗ .

Combien d’observations pour estimer correctement Π ?

9 / 24Classification dans les réseaux biologiques

N

Page 17: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Estimation des corrélations partielles[Schäfer and Strimmer, 2005]

Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter

1 Générer un échantillon bootstrap b∗ dans les données initiales ;

2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;

3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;

Estimer Π par la moyenne des Πb∗ .

Combien d’observations pour estimer correctement Π ?

9 / 24Classification dans les réseaux biologiques

N

Page 18: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Estimation des corrélations partielles[Schäfer and Strimmer, 2005]

Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter

1 Générer un échantillon bootstrap b∗ dans les données initiales ;

2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;

3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;

Estimer Π par la moyenne des Πb∗ .Combien d’observations pour estimer correctement Π ?

9 / 24Classification dans les réseaux biologiques

N

Page 19: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Résultat de l’estimation des corrélationspartielles

Histogramme des corrélations partielles estimées sur les 128 eQTL

Corrélations partielles

−0.2 −0.1 0.0 0.1 0.2

010

0020

0030

0040

00

Seules les corrélations lesplus importantes sont con-servées.Méthode 1 : Test[Schäfer and Strimmer, 2005]basé sur un a priori bayésien.Méthode 2 (utilisée) : Seuil-lage pour l’obtention d’unedensité fixée à l’avance (ici :entre 5% et 10%).

10 / 24Classification dans les réseaux biologiques

N

Page 20: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Plus grande composante connexe duréseau obtenu

●●●

●●

●●

●●

● ●

●●

●●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

110 sommets ; les arêtes sontpondérées par la corrélationpartielleDensité : 9,4 %Transitivité : 19,4 %

Problématique : Remettre enévidence la structure modu-laire du réseau afin d’identifierles groupes de gènes simi-laires.

11 / 24Classification dans les réseaux biologiques

N

Page 21: Comparaison de méthodes de classification de sommets dans un réseau biologique

Présentation des données

Plus grande composante connexe duréseau obtenu

●●●

●●

●●

●●

● ●

●●

●●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

110 sommets ; les arêtes sontpondérées par la corrélationpartielleDensité : 9,4 %Transitivité : 19,4 %Problématique : Remettre enévidence la structure modu-laire du réseau afin d’identifierles groupes de gènes simi-laires.

11 / 24Classification dans les réseaux biologiques

N

Page 22: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Sommaire

1 Présentation des données

2 Classification des sommets

12 / 24Classification dans les réseaux biologiques

N

Page 23: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Objectifs du travail

Point de vue méthodologique : Évaluer la pertinence biologiquede diverses approches de classification de sommets ;

Point de vue biologique : Formuler des hypothèses sur la fonctionbiologique de certains gènes non répertoriés.

Deux approches comparées :

Approches à noyau (ici, kernel k-means)

Approches basées sur la modularité

13 / 24Classification dans les réseaux biologiques

N

Page 24: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Objectifs du travail

Point de vue méthodologique : Évaluer la pertinence biologiquede diverses approches de classification de sommets ;

Point de vue biologique : Formuler des hypothèses sur la fonctionbiologique de certains gènes non répertoriés.

Deux approches comparées :

Approches à noyau (ici, kernel k-means)

Approches basées sur la modularité

13 / 24Classification dans les réseaux biologiques

N

Page 25: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Présentation des approches à noyau

Principe de base : Doter le graphe G d’une métrique par le biaisd’un noyau et utiliser un algorithme de classification (typek -means) à partir de cette métrique.

Qu’est-ce qu’un noyau ? C’est une fonction K : G × G → R,symétrique et positive⇒ ∃φ : G → (H , 〈., .〉) telle que :

〈φ(x), φ(x′)〉 = K(x, x′).

14 / 24Classification dans les réseaux biologiques

N

Page 26: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Présentation des approches à noyau

Principe de base : Doter le graphe G d’une métrique par le biaisd’un noyau et utiliser un algorithme de classification (typek -means) à partir de cette métrique.Qu’est-ce qu’un noyau ? C’est une fonction K : G × G → R,symétrique et positive⇒ ∃φ : G → (H , 〈., .〉) telle que :

〈φ(x), φ(x′)〉 = K(x, x′).

14 / 24Classification dans les réseaux biologiques

N

Page 27: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Quels noyaux pour les graphes ?

La plupart sont des régularisations du Laplacien

[Smola and Kondor, 2003] L =

{−πij si i , jdi =

∑k,i πik si i = j

Exemples :

noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL

Peut être vu comme la quantité d’énergie mesurée en un sommetdu graphe après une diffusion continue le long des arêtes à partird’un autre sommet.Exemple : Pour le graphe de co-apparition des Misérables, lenoyau de la chaleur vu depuis Jean Valjean Voir

inverse généralisée [Fouss et al., 2007] : K = L+

Temps moyen d’attente d’un sommet à partir d’un autre lors d’unemarche aléatoire sur le graphe.

15 / 24Classification dans les réseaux biologiques

N

Page 28: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Quels noyaux pour les graphes ?

La plupart sont des régularisations du Laplacien

[Smola and Kondor, 2003] L =

{−πij si i , jdi =

∑k,i πik si i = j

Exemples :

noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL

Peut être vu comme la quantité d’énergie mesurée en un sommetdu graphe après une diffusion continue le long des arêtes à partird’un autre sommet.Exemple : Pour le graphe de co-apparition des Misérables, lenoyau de la chaleur vu depuis Jean Valjean Voir

inverse généralisée [Fouss et al., 2007] : K = L+

Temps moyen d’attente d’un sommet à partir d’un autre lors d’unemarche aléatoire sur le graphe.

15 / 24Classification dans les réseaux biologiques

N

Page 29: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Quels noyaux pour les graphes ?

La plupart sont des régularisations du Laplacien

[Smola and Kondor, 2003] L =

{−πij si i , jdi =

∑k,i πik si i = j

Exemples :

noyau de la chaleur [Kondor and Lafferty, 2002] : K = e−βL

Peut être vu comme la quantité d’énergie mesurée en un sommetdu graphe après une diffusion continue le long des arêtes à partird’un autre sommet.Exemple : Pour le graphe de co-apparition des Misérables, lenoyau de la chaleur vu depuis Jean Valjean Voir

inverse généralisée [Fouss et al., 2007] : K = L+

Temps moyen d’attente d’un sommet à partir d’un autre lors d’unemarche aléatoire sur le graphe.

15 / 24Classification dans les réseaux biologiques

N

Page 30: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Modularité [Newman and Girvan, 2004]

Mesure de qualité d’une classification de graphe : Une partitiondes sommets en C classes, (Ck )k=1,...,C a une modularité égale à :

Q(C) =1

2m

C∑k=1

∑i,j∈Ck

(Πij − Pij)

où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.

De manière plus précise,

Pij =didj

2moù di = 1

2∑

j,i πij est le degré du sommet xi .Une “bonne” classification correspond à Q maximale.

16 / 24Classification dans les réseaux biologiquesN

Page 31: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Modularité [Newman and Girvan, 2004]

Mesure de qualité d’une classification de graphe : Une partitiondes sommets en C classes, (Ck )k=1,...,C a une modularité égale à :

Q(C) =1

2m

C∑k=1

∑i,j∈Ck

(Πij − Pij)

où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.De manière plus précise,

Pij =didj

2moù di = 1

2∑

j,i πij est le degré du sommet xi .

Une “bonne” classification correspond à Q maximale.

16 / 24Classification dans les réseaux biologiquesN

Page 32: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Modularité [Newman and Girvan, 2004]

Mesure de qualité d’une classification de graphe : Une partitiondes sommets en C classes, (Ck )k=1,...,C a une modularité égale à :

Q(C) =1

2m

C∑k=1

∑i,j∈Ck

(Πij − Pij)

où Pij sont les poids dans un “modèle nul” pour lequel les poidsdépendent uniquement des propriétés des sommets et non de laclasse à laquelle ils appartiennent.De manière plus précise,

Pij =didj

2moù di = 1

2∑

j,i πij est le degré du sommet xi .Une “bonne” classification correspond à Q maximale.

16 / 24Classification dans les réseaux biologiquesN

Page 33: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Interprétation

Q augmente lorsque (xi , xj) sont dans une même classe et ont unpoids réel πij plus grand que le poids du modèle nul, Pij

Q diminue lorsque (xi , xj) sont dans deux classes distinctes et ontun poids réel πij plus petit que le poids du modèle nul, Pij car

Q(C) +1

2m

∑k,k ′

∑i∈Ck , j∈Ck ′

(Wij − Pij) = 0.

À l’inverse de la minimisation du nombre de sommets entre lesclasses, la modularité permet de séparer des sommets de fortsdegrés (hubs) dans des classes différentes.

17 / 24Classification dans les réseaux biologiquesN

Page 34: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Interprétation

Q augmente lorsque (xi , xj) sont dans une même classe et ont unpoids réel πij plus grand que le poids du modèle nul, Pij

Q diminue lorsque (xi , xj) sont dans deux classes distinctes et ontun poids réel πij plus petit que le poids du modèle nul, Pij car

Q(C) +1

2m

∑k,k ′

∑i∈Ck , j∈Ck ′

(Wij − Pij) = 0.

À l’inverse de la minimisation du nombre de sommets entre lesclasses, la modularité permet de séparer des sommets de fortsdegrés (hubs) dans des classes différentes.

17 / 24Classification dans les réseaux biologiquesN

Page 35: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Optimiser la modularité par recuitsimulé

[Reichardt and Bornholdt, 2006, Villa et al., 2009] Principe :Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f)), onsimule de manière stochastique (chaîne de Markov sur les états, f: classifications des sommets) ,la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).

Algorithme

1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n

2 On répète

2 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi

dans (f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f l’état dans lequel xi a subi un échange de classe entre j1

et j2. On note ∆E = Q(f) − Q(f0)2 si ∆E > 0 alors f1 = f2 sinon f1 = f avec probabilité e∆E/T et f1 = f0 avec probabilité

e−∆E/T

2 On diminue T

3 On stoppe à stabilisation de l’algorithme.

18 / 24Classification dans les réseaux biologiques

N

Page 36: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Optimiser la modularité par recuitsimulé

[Reichardt and Bornholdt, 2006, Villa et al., 2009] Principe :Lorsque l’on cherche à minimiser une énergie E(f) (= −Q(f)), onsimule de manière stochastique (chaîne de Markov sur les états, f: classifications des sommets) ,la probabilité

PT (f) =e−E(f)/T∑g e−E(g)/T

.

Lorque T → 0, PT (f) se concentre sur minf E(f).

Algorithme

1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n

2 On répète

2 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi

dans (f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f l’état dans lequel xi a subi un échange de classe entre j1

et j2. On note ∆E = Q(f) − Q(f0)2 si ∆E > 0 alors f1 = f2 sinon f1 = f avec probabilité e∆E/T et f1 = f0 avec probabilité

e−∆E/T

2 On diminue T

3 On stoppe à stabilisation de l’algorithme.

18 / 24Classification dans les réseaux biologiques

N

Page 37: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Optimiser la modularité par recuitsimulé

Algorithme

1 On initialise la classification des sommets à un état aléatoiref0 ∈ {1, . . . ,m}⊗n

2 On répète

2 On tire deux classes j1 et j2 dans {1, . . . ,m} et un sommet xi

dans (f0)−1(j1) ∩ (f0)−1(j2) (les deux opérations équiprobables)2 Notons f l’état dans lequel xi a subi un échange de classe entre j1

et j2. On note ∆E = Q(f) − Q(f0)2 si ∆E > 0 alors f1 = f2 sinon f1 = f avec probabilité e∆E/T et f1 = f0 avec probabilité

e−∆E/T

2 On diminue T

3 On stoppe à stabilisation de l’algorithme.18 / 24

Classification dans les réseaux biologiquesN

Page 38: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Optimiser la modularité par recuit déter-ministe

[Lehmann and Hansen, 2007, Rossi and Villa-Vialaneix, 2010]

Pour une température donnée 1β, on suppose une distribution de

Gibbs sur l’espace des solutions P(f) = 1Zf

eβQ(f)

On calcule E(f) selon P

Lorsque β→ +∞, E(f) converge vers f ∗ où f ∗ réalise le maximumde F(f)

Problème : Zf =∑

f eβQ(f) est impossible à calculer si P(f) ne sefactorise pas en f ⇒ On approche P(f) par une distribution quifactorise puis on utilise un algorithme de type EM pouritérativement optimiser cette approximation (minimisation de ladivergence de Kullback Leibler) et calculer l’espérance de f seloncette distribution (détails dans [Rossi and Villa-Vialaneix, 2010]).

19 / 24Classification dans les réseaux biologiques

N

Page 39: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Optimiser la modularité par recuit déter-ministe

[Lehmann and Hansen, 2007, Rossi and Villa-Vialaneix, 2010]

Pour une température donnée 1β, on suppose une distribution de

Gibbs sur l’espace des solutions P(f) = 1Zf

eβQ(f)

On calcule E(f) selon P

Lorsque β→ +∞, E(f) converge vers f ∗ où f ∗ réalise le maximumde F(f)

Problème : Zf =∑

f eβQ(f) est impossible à calculer si P(f) ne sefactorise pas en f ⇒ On approche P(f) par une distribution quifactorise puis on utilise un algorithme de type EM pouritérativement optimiser cette approximation (minimisation de ladivergence de Kullback Leibler) et calculer l’espérance de f seloncette distribution (détails dans [Rossi and Villa-Vialaneix, 2010]).

19 / 24Classification dans les réseaux biologiques

N

Page 40: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Méthodologie

Pour un nombre de classes variant de 5 à 10 :

Kernel k -means avec divers noyaux ;

Optimisation de la modularité par recuit simulé et par recuitdéterministe

Détermination de la modularité des classifications

Validation biologique des meilleures classifications obtenues

20 / 24Classification dans les réseaux biologiques

N

Page 41: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Analyse de la classification retenue

Classification retenue :

Optimisation de la modularité par recuit simulé ;

5 classes ;

Modularité = 0,25 (plutôt faible).

Conclusion plus générale : L’optimisation de la modularité estmeilleure que les approches à noyau sur cet exemple.

21 / 24Classification dans les réseaux biologiques

N

Page 42: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Analyse de la classification retenue

Classification retenue :

Optimisation de la modularité par recuit simulé ;

5 classes ;

Modularité = 0,25 (plutôt faible).

Conclusion plus générale : L’optimisation de la modularité estmeilleure que les approches à noyau sur cet exemple.

21 / 24Classification dans les réseaux biologiques

N

Page 43: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Analyse de la classification retenue

Classification retenue :

Optimisation de la modularité par recuit simulé ;

5 classes ;

Modularité = 0,25 (plutôt faible).

Conclusion plus générale : L’optimisation de la modularité estmeilleure que les approches à noyau sur cet exemple.

21 / 24Classification dans les réseaux biologiques

N

Page 44: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Validation biologique

Recherche des fonctions biologiques des gènes connus dechaque classe : 1 classe = 1 ou 2 fonctions

Num. Fonction biologique Taille classe Nb gènesreconnus

1 Synthèse protéique 24 142 Stress oxydatif et act kinase cell 13 9

cycle/apoptose+SH2adaptator3 Activités déaminase et hydrolase 32 20

réticulum andoplasmique4 Non connu 26 135 Régulation de la transcription 15 7

22 / 24Classification dans les réseaux biologiques

N

Page 45: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Conclusion et perspectives

Conclusion

L”approche de classification de sommets semblent pertinente dansle cadre biologique ;

L’optimisation de la modularité semble être une méthodologieintéressante.

Perspectives Travail à confirmer par comparaison à desméthodes plus courantes dans la communautébiostatistique/bioinformatique (Markov Clustering, par exemple) etsur un jeu de données plus large (public).

23 / 24Classification dans les réseaux biologiques

N

Page 46: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Conclusion et perspectives

Conclusion

L”approche de classification de sommets semblent pertinente dansle cadre biologique ;

L’optimisation de la modularité semble être une méthodologieintéressante.

Perspectives Travail à confirmer par comparaison à desméthodes plus courantes dans la communautébiostatistique/bioinformatique (Markov Clustering, par exemple) etsur un jeu de données plus large (public).

23 / 24Classification dans les réseaux biologiques

N

Page 47: Comparaison de méthodes de classification de sommets dans un réseau biologique

Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).Random-walk computation of similarities between nodes of a graph, with application to collaborativerecommendation.IEEE Transactions on Knowledge and Data Engineering, 19(3):355–369.

Kondor, R. and Lafferty, J. (2002).Diffusion kernels on graphs and other discrete structures.In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.

Lehmann, S. and Hansen, L. (2007).Deterministic modularity optimization.The European Physical Journal B, 60(1):83–88.

Newman, M. and Girvan, M. (2004).Finding and evaluating community structure in networks.Physical Review, E, 69:026113.

Reichardt, J. and Bornholdt, S. (2006).Statistical mechanics of community detection.Physical Review E, 74(016110).

Rossi, F. and Villa-Vialaneix, N. (2010).Optimizing an organized modularity measure for topographic graph clustering : a deterministic annealingapproach.Neurocomputing, 73(7-9):1142–1163.

Schäfer, J. and Strimmer, K. (2005).An empirical bayes approach to inferring large-scale gene association networks.Bioinformatics, 21(6):754–764.

23 / 24Classification dans les réseaux biologiques

N

Page 48: Comparaison de méthodes de classification de sommets dans un réseau biologique

Smola, A. and Kondor, R. (2003).Kernels and regularization on graphs.In Warmuth, M. and Schölkopf, B., editors, Proceedings of the Conference on Learning Theory (COLT) andKernel Workshop.

Villa, N., Dkaki, T., Gadat, S., Inglebert, J., and Truong, Q. (2009).Recherche et représentation de communautés dans des grands graphes.In Actes du colloque Veille Stratégique, Scientifique et Technologique (VSST 2009), Nancy, France.À paraître.

24 / 24Classification dans les réseaux biologiques

N

Page 49: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Noyau de la chaleur des Misérablesselon Valjean Retour

24 / 24Classification dans les réseaux biologiques

N

Page 50: Comparaison de méthodes de classification de sommets dans un réseau biologique

Classification des sommets

Noyau de la chaleur des Misérablesselon Valjean Retour

24 / 24Classification dans les réseaux biologiques

N