Compte-rendu bibliographique sur les réseaux biologiques III

78
Compte-rendu bibliographique sur les réseaux biologiques III Nathalie Villa-Vialaneix http ://www.nathalievilla.org Institut de Mathématiques de Toulouse IUT de Carcassonne (Université de Perpignan) Groupe de travail BioPuces, INRA de Castanet 8 janvier 2010 BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 1 / 31

description

Groupe de travail Biopuces, INRA d'Auzeville January 8th, 2010

Transcript of Compte-rendu bibliographique sur les réseaux biologiques III

Page 1: Compte-rendu bibliographique sur les réseaux biologiques III

Compte-rendu bibliographique sur les réseauxbiologiques III

Nathalie Villa-Vialaneixhttp ://www.nathalievilla.org

Institut de Mathématiques de ToulouseIUT de Carcassonne (Université de Perpignan)

Groupe de travail BioPuces, INRA de Castanet8 janvier 2010

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 1 / 31

Page 2: Compte-rendu bibliographique sur les réseaux biologiques III

Vue d’ensemble des thématiques

⇒ ⇒ CompréhensionInférence de graphes Analyse du graphe

• non supervisée • Recherche de motifs• semi supervisée • Classification de sommets

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31

Page 3: Compte-rendu bibliographique sur les réseaux biologiques III

Vue d’ensemble des thématiques

⇒ ⇒ CompréhensionInférence de graphes Analyse du graphe

• non supervisée • Recherche de motifs• semi supervisée • Classification de sommets

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 2 / 31

Page 4: Compte-rendu bibliographique sur les réseaux biologiques III

Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31

Page 5: Compte-rendu bibliographique sur les réseaux biologiques III

Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

Sommets (ou nœuds) / en anglais : vertices, nodes

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31

Page 6: Compte-rendu bibliographique sur les réseaux biologiques III

Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

SommetsArêtes / en anglais : edges

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31

Page 7: Compte-rendu bibliographique sur les réseaux biologiques III

Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 3 / 31

Page 8: Compte-rendu bibliographique sur les réseaux biologiques III

Notations

Dans la suite, on notera G un graphe

de sommets V = {x1, . . . , xn} (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31

Page 9: Compte-rendu bibliographique sur les réseaux biologiques III

Notations

Dans la suite, on notera G un graphe

de sommets V = {x1, . . . , xn} (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31

Page 10: Compte-rendu bibliographique sur les réseaux biologiques III

Notations

Dans la suite, on notera G un graphe

de sommets V = {x1, . . . , xn} (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31

Page 11: Compte-rendu bibliographique sur les réseaux biologiques III

Notations

Dans la suite, on notera G un graphe

de sommets V = {x1, . . . , xn} (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 4 / 31

Page 12: Compte-rendu bibliographique sur les réseaux biologiques III

Sommaire

1 Inférence de graphes

2 Recherche de motifs

3 Recherche de modules : classification des sommets

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 5 / 31

Page 13: Compte-rendu bibliographique sur les réseaux biologiques III

Sommaire

1 Inférence de graphes

2 Recherche de motifs

3 Recherche de modules : classification des sommets

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 6 / 31

Page 14: Compte-rendu bibliographique sur les réseaux biologiques III

Références

1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach toinferring large-scale gene association networks. Bioinformatics, 21(6),pp 754-764.

2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervisedenzyme network inference from the integration of genomic data andchemical information. Bioinformatics, 21(Supp. 1), i468-i477.

3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration ofmultiple biological data for supervised network inference.Bioinformatics, 21(10), 2488-2495.

4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.(2007) Inferring biological networks with output kernel trees. BMCBioinformatics, 8(Supp. 2).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 7 / 31

Page 15: Compte-rendu bibliographique sur les réseaux biologiques III

Sommaire

1 Inférence de graphes

2 Recherche de motifs

3 Recherche de modules : classification des sommets

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 8 / 31

Page 16: Compte-rendu bibliographique sur les réseaux biologiques III

Références

1 Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002) Networkmotifs in the transcriptional regulation network of Escherichia Coli.Nature genetics, 31, 64-68.

2 Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005) Networkthinking in ecology and evolution. Trends in Ecology and Evolution,20(6), 345-353.

3 Siegal M., Promislow D.E.L. and Bergman A. (2007) Functionaland evolutionary inference in gene networks : does topology matter ?Genetica, 129, 83-103.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 9 / 31

Page 17: Compte-rendu bibliographique sur les réseaux biologiques III

Sommaire

1 Inférence de graphes

2 Recherche de motifs

3 Recherche de modules : classification des sommets

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 10 / 31

Page 18: Compte-rendu bibliographique sur les réseaux biologiques III

Recherche de modules, classification de sommets

Problème particulier posé par la classification de sommets dans ungraphe : il n’y a pas de “distance” naturelle entre sommets d’un graphedonc pas de manière simple d’utiliser les algorithmes de classificationusuels (k -means, CAH ...)

Trois grandes familles de méthodes :

méthodes basées sur la définition d’une similarité ou d’un noyau ;

méthodes basées sur l’optimisation d’un critère de qualité ;

méthodes basées sur un modèle de graphe aléatoire.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31

Page 19: Compte-rendu bibliographique sur les réseaux biologiques III

Recherche de modules, classification de sommets

Problème particulier posé par la classification de sommets dans ungraphe : il n’y a pas de “distance” naturelle entre sommets d’un graphedonc pas de manière simple d’utiliser les algorithmes de classificationusuels (k -means, CAH ...)Trois grandes familles de méthodes :

méthodes basées sur la définition d’une similarité ou d’un noyau ;

méthodes basées sur l’optimisation d’un critère de qualité ;

méthodes basées sur un modèle de graphe aléatoire.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 11 / 31

Page 20: Compte-rendu bibliographique sur les réseaux biologiques III

Principe des méthodes à noyau

Le noyau K permet de passer d’un graphe à un espace vectoriel usuel(avec une distance) :

Graphe Espace vectoriel H ∼ Rn

Pas de métrique Une distance : d(u, v) =√〈u − v , u − v〉H

Un sommet xi L’image du sommet φ(xi)

On définit la “distance” entre deux sommets par :

d(φ(xi), φ(xj)) =√

K(xi , xi) + K(xj , xj) − 2K(xi , xj)

⇒ uniquement à partir du noyau !

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 12 / 31

Page 21: Compte-rendu bibliographique sur les réseaux biologiques III

Noyaux basés sur le Laplacien

Les noyaux fréquemment utilisés sont des versions régularisées duLaplacien :

L =

{−wij si i , jdi =

∑j,i wij sinon.

car cette matrice a des propriétés intéressantes en relation avec lastructure du graphe.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 13 / 31

Page 22: Compte-rendu bibliographique sur les réseaux biologiques III

Propriétés du Laplacien I [von Luxburg, 2007]

Composantes connexesKerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de laième composante connexe du graphe.

1

4

5

2

3

KerL = Span

10011

;

01100

Remarque : Il existe d’autres propriétés algébriques plus fines entre lastructure du graphe et les valeurs propres du Laplacien.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31

Page 23: Compte-rendu bibliographique sur les réseaux biologiques III

Propriétés du Laplacien I [von Luxburg, 2007]

Composantes connexesKerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de laième composante connexe du graphe.

1

4

5

2

3

KerL = Span

10011

;

01100

Remarque : Il existe d’autres propriétés algébriques plus fines entre lastructure du graphe et les valeurs propres du Laplacien.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 14 / 31

Page 24: Compte-rendu bibliographique sur les réseaux biologiques III

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale , est équivalent à

H = arg minh∈Rn×k

Tr(hT Lh

)subject to

hT h = Ihi = 1/

√|Ai |1Ai

peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31

Page 25: Compte-rendu bibliographique sur les réseaux biologiques III

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale , est équivalent à

H = arg minh∈Rn×k

Tr(hT Lh

)subject to

hT h = Ihi = 1/

√|Ai |1Ai

⇒ problème NP-complet.

peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31

Page 26: Compte-rendu bibliographique sur les réseaux biologiques III

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31

Page 27: Compte-rendu bibliographique sur les réseaux biologiques III

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.

Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31

Page 28: Compte-rendu bibliographique sur les réseaux biologiques III

Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par

H = arg minh∈Rn×k

Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 15 / 31

Page 29: Compte-rendu bibliographique sur les réseaux biologiques III

Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)

' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

3 . . .

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31

Page 30: Compte-rendu bibliographique sur les réseaux biologiques III

Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

3 . . .

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31

Page 31: Compte-rendu bibliographique sur les réseaux biologiques III

Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

3 . . .

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31

Page 32: Compte-rendu bibliographique sur les réseaux biologiques III

Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

3 . . .

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 16 / 31

Page 33: Compte-rendu bibliographique sur les réseaux biologiques III

Exemples : [Yamanishi et al., 2003] and[Guillemot et al., 2008]

Références complètes :

Y. Yamanishi, J.-P. Vert, A. Nakaya and M. Kanehisa (2003) Extractionof correlated gene clusters from multiple genomic data by generalizedkernel canonical correlation analysis. Bioinformatics, 19, p323i-330i.

V. Guillemot, L. Le Brusquet, A. Tenenhaus and V. Frouin (2008)Graph-constrained discriminant analysis of functional genomic data.Proceedings of IEEE International Conference on Bioinformatics andBiomedecine Workshops, Philadelphia, USA.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 17 / 31

Page 34: Compte-rendu bibliographique sur les réseaux biologiques III

Classification à partir de données multiples : KCCA[Yamanishi et al., 2003]

Les données : KEGC/LIGAND database (données des composants etréactions dans les voies métaboliques)⇒ graphe dont les sommets sontles gènes d’un organisme et deux sommets sont liés si les gènescatalysent deux réactions successives dans la même voie.

KEGC/BRITE database (données de positions des gènes)⇒ graphe dontles sommets sont des gènes et deux sommets sont liés si les gènes sontvoisins sur un même chromosome.ExpressDB (données d’expression de gènes de E. Coli dans de multiplesexpériences)⇒ données multivariées (pour chaque gène, l’expressiondans 4 conditions expérimentales).But : Comprendre comment ces données interagissent.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31

Page 35: Compte-rendu bibliographique sur les réseaux biologiques III

Classification à partir de données multiples : KCCA[Yamanishi et al., 2003]

Les données : KEGC/LIGAND database (données des composants etréactions dans les voies métaboliques)⇒ graphe dont les sommets sontles gènes d’un organisme et deux sommets sont liés si les gènescatalysent deux réactions successives dans la même voie.KEGC/BRITE database (données de positions des gènes)⇒ graphe dontles sommets sont des gènes et deux sommets sont liés si les gènes sontvoisins sur un même chromosome.

ExpressDB (données d’expression de gènes de E. Coli dans de multiplesexpériences)⇒ données multivariées (pour chaque gène, l’expressiondans 4 conditions expérimentales).But : Comprendre comment ces données interagissent.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31

Page 36: Compte-rendu bibliographique sur les réseaux biologiques III

Classification à partir de données multiples : KCCA[Yamanishi et al., 2003]

Les données : KEGC/LIGAND database (données des composants etréactions dans les voies métaboliques)⇒ graphe dont les sommets sontles gènes d’un organisme et deux sommets sont liés si les gènescatalysent deux réactions successives dans la même voie.KEGC/BRITE database (données de positions des gènes)⇒ graphe dontles sommets sont des gènes et deux sommets sont liés si les gènes sontvoisins sur un même chromosome.ExpressDB (données d’expression de gènes de E. Coli dans de multiplesexpériences)⇒ données multivariées (pour chaque gène, l’expressiondans 4 conditions expérimentales).

But : Comprendre comment ces données interagissent.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31

Page 37: Compte-rendu bibliographique sur les réseaux biologiques III

Classification à partir de données multiples : KCCA[Yamanishi et al., 2003]

Les données : KEGC/LIGAND database (données des composants etréactions dans les voies métaboliques)⇒ graphe dont les sommets sontles gènes d’un organisme et deux sommets sont liés si les gènescatalysent deux réactions successives dans la même voie.KEGC/BRITE database (données de positions des gènes)⇒ graphe dontles sommets sont des gènes et deux sommets sont liés si les gènes sontvoisins sur un même chromosome.ExpressDB (données d’expression de gènes de E. Coli dans de multiplesexpériences)⇒ données multivariées (pour chaque gène, l’expressiondans 4 conditions expérimentales).But : Comprendre comment ces données interagissent.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 18 / 31

Page 38: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologies

1 Un noyau pour le graphe issu des voies métaboliques (noyau de lachaleur) et la somme de deux noyaux pour le graphe issu desvoisinages (noyau de la chaleur) et les données multivariées (noyaugaussien : K(u, v) = e−γ‖u−v‖2)⇒ deux espaces vectoriels.

Analyse canonique des corrélations pénalisée entre ces deuxespaces (la pénalité est la norme des axes de projection dansl’espace noyau).

2 Trois noyaux (un pour chaque donnée)⇒ trois espaces vectoriels.Analyse canonique des corrélations multiples pénalisée.

Les “classes” sont les gènes ayant des composantes fortes sur un desaxes (5% les plus fortes et 5% les moins fortes).Résultats : Certains groupes de gènes sont de meilleurs candidatsopérons que ceux fournis par “Operon Data Library” (4 consécutifs sur unemême voie plutôt que 3 avec un “trou” au milieu).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31

Page 39: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologies

1 Un noyau pour le graphe issu des voies métaboliques (noyau de lachaleur) et la somme de deux noyaux pour le graphe issu desvoisinages (noyau de la chaleur) et les données multivariées (noyaugaussien : K(u, v) = e−γ‖u−v‖2)⇒ deux espaces vectoriels.Analyse canonique des corrélations pénalisée entre ces deuxespaces (la pénalité est la norme des axes de projection dansl’espace noyau).

2 Trois noyaux (un pour chaque donnée)⇒ trois espaces vectoriels.

Analyse canonique des corrélations multiples pénalisée.

Les “classes” sont les gènes ayant des composantes fortes sur un desaxes (5% les plus fortes et 5% les moins fortes).Résultats : Certains groupes de gènes sont de meilleurs candidatsopérons que ceux fournis par “Operon Data Library” (4 consécutifs sur unemême voie plutôt que 3 avec un “trou” au milieu).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31

Page 40: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologies

1 Un noyau pour le graphe issu des voies métaboliques (noyau de lachaleur) et la somme de deux noyaux pour le graphe issu desvoisinages (noyau de la chaleur) et les données multivariées (noyaugaussien : K(u, v) = e−γ‖u−v‖2)⇒ deux espaces vectoriels.Analyse canonique des corrélations pénalisée entre ces deuxespaces (la pénalité est la norme des axes de projection dansl’espace noyau).

2 Trois noyaux (un pour chaque donnée)⇒ trois espaces vectoriels.Analyse canonique des corrélations multiples pénalisée.

Les “classes” sont les gènes ayant des composantes fortes sur un desaxes (5% les plus fortes et 5% les moins fortes).Résultats : Certains groupes de gènes sont de meilleurs candidatsopérons que ceux fournis par “Operon Data Library” (4 consécutifs sur unemême voie plutôt que 3 avec un “trou” au milieu).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31

Page 41: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologies

1 Un noyau pour le graphe issu des voies métaboliques (noyau de lachaleur) et la somme de deux noyaux pour le graphe issu desvoisinages (noyau de la chaleur) et les données multivariées (noyaugaussien : K(u, v) = e−γ‖u−v‖2)⇒ deux espaces vectoriels.Analyse canonique des corrélations pénalisée entre ces deuxespaces (la pénalité est la norme des axes de projection dansl’espace noyau).

2 Trois noyaux (un pour chaque donnée)⇒ trois espaces vectoriels.Analyse canonique des corrélations multiples pénalisée.

Les “classes” sont les gènes ayant des composantes fortes sur un desaxes (5% les plus fortes et 5% les moins fortes).

Résultats : Certains groupes de gènes sont de meilleurs candidatsopérons que ceux fournis par “Operon Data Library” (4 consécutifs sur unemême voie plutôt que 3 avec un “trou” au milieu).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31

Page 42: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologies

1 Un noyau pour le graphe issu des voies métaboliques (noyau de lachaleur) et la somme de deux noyaux pour le graphe issu desvoisinages (noyau de la chaleur) et les données multivariées (noyaugaussien : K(u, v) = e−γ‖u−v‖2)⇒ deux espaces vectoriels.Analyse canonique des corrélations pénalisée entre ces deuxespaces (la pénalité est la norme des axes de projection dansl’espace noyau).

2 Trois noyaux (un pour chaque donnée)⇒ trois espaces vectoriels.Analyse canonique des corrélations multiples pénalisée.

Les “classes” sont les gènes ayant des composantes fortes sur un desaxes (5% les plus fortes et 5% les moins fortes).Résultats : Certains groupes de gènes sont de meilleurs candidatsopérons que ceux fournis par “Operon Data Library” (4 consécutifs sur unemême voie plutôt que 3 avec un “trou” au milieu).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 19 / 31

Page 43: Compte-rendu bibliographique sur les réseaux biologiques III

Discrimination pénalisée par la structure du graphe

Les données : 100 gènes choisis aléatoirement dans la base de donnéesAlon⇒ (par régression PLS) graphe des dépendances entre gènes (avecla moitié de la base de données) & données multivariées (expression desgènes : les gènes sont ici les variables).

But : Combiner l’information de l’expression et l’information donnée par legraphe pour discriminer les observations issues de tissus cancéreux et detissus normaux (cancer du colon).Méthodologie : Analyse discriminante pénalisée par la norme induite parle Laplacien.Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %contre 4,5 % pour un SVM sur les données multivariées.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31

Page 44: Compte-rendu bibliographique sur les réseaux biologiques III

Discrimination pénalisée par la structure du graphe

Les données : 100 gènes choisis aléatoirement dans la base de donnéesAlon⇒ (par régression PLS) graphe des dépendances entre gènes (avecla moitié de la base de données) & données multivariées (expression desgènes : les gènes sont ici les variables).But : Combiner l’information de l’expression et l’information donnée par legraphe pour discriminer les observations issues de tissus cancéreux et detissus normaux (cancer du colon).

Méthodologie : Analyse discriminante pénalisée par la norme induite parle Laplacien.Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %contre 4,5 % pour un SVM sur les données multivariées.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31

Page 45: Compte-rendu bibliographique sur les réseaux biologiques III

Discrimination pénalisée par la structure du graphe

Les données : 100 gènes choisis aléatoirement dans la base de donnéesAlon⇒ (par régression PLS) graphe des dépendances entre gènes (avecla moitié de la base de données) & données multivariées (expression desgènes : les gènes sont ici les variables).But : Combiner l’information de l’expression et l’information donnée par legraphe pour discriminer les observations issues de tissus cancéreux et detissus normaux (cancer du colon).Méthodologie : Analyse discriminante pénalisée par la norme induite parle Laplacien.

Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %contre 4,5 % pour un SVM sur les données multivariées.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31

Page 46: Compte-rendu bibliographique sur les réseaux biologiques III

Discrimination pénalisée par la structure du graphe

Les données : 100 gènes choisis aléatoirement dans la base de donnéesAlon⇒ (par régression PLS) graphe des dépendances entre gènes (avecla moitié de la base de données) & données multivariées (expression desgènes : les gènes sont ici les variables).But : Combiner l’information de l’expression et l’information donnée par legraphe pour discriminer les observations issues de tissus cancéreux et detissus normaux (cancer du colon).Méthodologie : Analyse discriminante pénalisée par la norme induite parle Laplacien.Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %contre 4,5 % pour un SVM sur les données multivariées.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 20 / 31

Page 47: Compte-rendu bibliographique sur les réseaux biologiques III

Markov Clustering (MCL)

Références :

van Dongen, S. (2000) Graph clustering by flow simulation. PhDthesis, Dutch National Research Institut for Mathematics andComputer Science in the Nederlands, Amsterdam, The Nederlands.

Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficientalgorithm for large-scale detection of protein families. Nucleic AcidsResearch, 30(7), p1575-1584.

Brohée, S. and van Helden, J. (2006) Evaluation of clusteringalgorithms for protein-protein interaction networks. BMCBioinformatics, 7(488).

Selon [Fortunato, 2009], “the MCL is one of the most used clusteringalgorithms in bioinformatics”.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31

Page 48: Compte-rendu bibliographique sur les réseaux biologiques III

Markov Clustering (MCL)

Références :

van Dongen, S. (2000) Graph clustering by flow simulation. PhDthesis, Dutch National Research Institut for Mathematics andComputer Science in the Nederlands, Amsterdam, The Nederlands.

Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficientalgorithm for large-scale detection of protein families. Nucleic AcidsResearch, 30(7), p1575-1584.

Brohée, S. and van Helden, J. (2006) Evaluation of clusteringalgorithms for protein-protein interaction networks. BMCBioinformatics, 7(488).

Selon [Fortunato, 2009], “the MCL is one of the most used clusteringalgorithms in bioinformatics”.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 21 / 31

Page 49: Compte-rendu bibliographique sur les réseaux biologiques III

Relation entre noyau de la chaleur, marche aléatoireet markov clustering

Remarque introductive sur noyau de la chaleur et marche aléatoire :Si Z0 = (1 1 1 . . . 1 1)T est le score « d’énergie » dans chaque sommet dugraphe et si cette énergie est diffusée le long des arêtes du grapheselon une petite fraction ε sur chaque arête et à chaque pas de temps.Alors, au bout de n pas de temps, le score dans les sommets du graphes’écrit :

Zn = (1 + εL)n Z0

Limites : Pas de temps↘ : n ↪→ t/(∆t) et α ↪→ α∆t puis (∆t)→ 0(processus continu) ; alors,

lim Zn = eαtL = kαt

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31

Page 50: Compte-rendu bibliographique sur les réseaux biologiques III

Relation entre noyau de la chaleur, marche aléatoireet markov clustering

Remarque introductive sur noyau de la chaleur et marche aléatoire :Si Z0 = (1 1 1 . . . 1 1)T est le score « d’énergie » dans chaque sommet dugraphe et si cette énergie est diffusée le long des arêtes du grapheselon une petite fraction ε sur chaque arête et à chaque pas de temps.Alors, au bout de n pas de temps, le score dans les sommets du graphes’écrit :

Zn = (1 + εL)n Z0

Limites : Pas de temps↘ : n ↪→ t/(∆t) et α ↪→ α∆t puis (∆t)→ 0(processus continu) ; alors,

lim Zn = eαtL = kαt

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 22 / 31

Page 51: Compte-rendu bibliographique sur les réseaux biologiques III

Description de la méthode MCL [van Dongen, 2000]

Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0dans la diagonale), on définit P :

Pij = Aij/di

qui donne la probabilité d’arriver en j en partant de i en un pasaléatoire sur le graphe.

Expansion : P ← P2 (Ppij donne la probabilité, avec une marche

aléatoire de p pas d’arriver en j à partir de i)⇒ phase de marchealéatoire ;

Inflation : Pij ← Pαij (pas d’interprétation physique) c’est une phase

de normalisation qui correspond à une augmentation de la longueurdes chemins (amplifier la préférence pour les couples de sommetsles plus facilement joignables).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31

Page 52: Compte-rendu bibliographique sur les réseaux biologiques III

Description de la méthode MCL [van Dongen, 2000]

Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0dans la diagonale), on définit P :

Pij = Aij/di

qui donne la probabilité d’arriver en j en partant de i en un pasaléatoire sur le graphe.

Expansion : P ← P2 (Ppij donne la probabilité, avec une marche

aléatoire de p pas d’arriver en j à partir de i)⇒ phase de marchealéatoire ;

Inflation : Pij ← Pαij (pas d’interprétation physique) c’est une phase

de normalisation qui correspond à une augmentation de la longueurdes chemins (amplifier la préférence pour les couples de sommetsles plus facilement joignables).

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 23 / 31

Page 53: Compte-rendu bibliographique sur les réseaux biologiques III

Discussion sur MCL

Convergence (parfois ; assurée si le graphe est non orientée) vers unematrice doublement idempotent : c’est la matrice d’un graphe séparé encomposantes disjointes ; chaque composante est organisé autour d’unou plusieurs pôles attracteurs autour desquels les sommets sontorganisés en étoile.

Problème pratique : Méthode très sensible au paramètre d’inflation α quiconduit à la calibration du nombre de classes.Application [Enright et al., 2002] : sommets = protéines ; arêtes =similarité entre protéines selon BLAST (bases de données InterPro etSCOP). Comparaison avec les familles de protéines données dans lesbases de données.⇒ environ 80 % de consensus avec les bases dedonnées existantes.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31

Page 54: Compte-rendu bibliographique sur les réseaux biologiques III

Discussion sur MCL

Convergence (parfois ; assurée si le graphe est non orientée) vers unematrice doublement idempotent : c’est la matrice d’un graphe séparé encomposantes disjointes ; chaque composante est organisé autour d’unou plusieurs pôles attracteurs autour desquels les sommets sontorganisés en étoile.Problème pratique : Méthode très sensible au paramètre d’inflation α quiconduit à la calibration du nombre de classes.

Application [Enright et al., 2002] : sommets = protéines ; arêtes =similarité entre protéines selon BLAST (bases de données InterPro etSCOP). Comparaison avec les familles de protéines données dans lesbases de données.⇒ environ 80 % de consensus avec les bases dedonnées existantes.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31

Page 55: Compte-rendu bibliographique sur les réseaux biologiques III

Discussion sur MCL

Convergence (parfois ; assurée si le graphe est non orientée) vers unematrice doublement idempotent : c’est la matrice d’un graphe séparé encomposantes disjointes ; chaque composante est organisé autour d’unou plusieurs pôles attracteurs autour desquels les sommets sontorganisés en étoile.Problème pratique : Méthode très sensible au paramètre d’inflation α quiconduit à la calibration du nombre de classes.Application [Enright et al., 2002] : sommets = protéines ; arêtes =similarité entre protéines selon BLAST (bases de données InterPro etSCOP). Comparaison avec les familles de protéines données dans lesbases de données.

⇒ environ 80 % de consensus avec les bases dedonnées existantes.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31

Page 56: Compte-rendu bibliographique sur les réseaux biologiques III

Discussion sur MCL

Convergence (parfois ; assurée si le graphe est non orientée) vers unematrice doublement idempotent : c’est la matrice d’un graphe séparé encomposantes disjointes ; chaque composante est organisé autour d’unou plusieurs pôles attracteurs autour desquels les sommets sontorganisés en étoile.Problème pratique : Méthode très sensible au paramètre d’inflation α quiconduit à la calibration du nombre de classes.Application [Enright et al., 2002] : sommets = protéines ; arêtes =similarité entre protéines selon BLAST (bases de données InterPro etSCOP). Comparaison avec les familles de protéines données dans lesbases de données.⇒ environ 80 % de consensus avec les bases dedonnées existantes.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 24 / 31

Page 57: Compte-rendu bibliographique sur les réseaux biologiques III

Comparaisons de MCL avec d’autres approches[Brohée and van Helden, 2006]

Brève présentation des approches comparées :

MCL

Restricted Neighborhood Search Clustering (RNSC) : algorithmelocal basé sur l’optimisation d’une fonction de coût (nombre d’arêtesinter et intra classes) ;

Super Paramagnetic Clustering (SPC) : algorithme hiérarchiquebasé sur des propriétés physiques des modèles ferromagnétiques ;

Molecular Complex Detection (MCODE) : recherche locale paraggrégation de régions de forte densité.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 25 / 31

Page 58: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologie de comparaison

Deux jeux de données sont utilisés :1 Collection de complexes protéiniques (MIPS) : Un graphe est

construit avec :sommets = protéines ;arêtes = appartenance au même complexe.

Puis altération du graphe initial (trop simple) par ajout et délétionaléatoire d’arêtes.But : Retrouver les complexes !

2 Graphe d’interactions de protéines (GRID) (levure yeastsaccharomyces) : 6 jeux de données d’interactions de protéines dansla levure obtenus par double hybridation (2), spectrométrie de masse(4)⇒ 6 graphes sur lesquels les algorithmes sont appliqués.

Validation : Retrouver les complexes cités dans MIPS.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31

Page 59: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologie de comparaison

Deux jeux de données sont utilisés :1 Collection de complexes protéiniques (MIPS) : Un graphe est

construit avec :sommets = protéines ;arêtes = appartenance au même complexe.

Puis altération du graphe initial (trop simple) par ajout et délétionaléatoire d’arêtes.But : Retrouver les complexes !

2 Graphe d’interactions de protéines (GRID) (levure yeastsaccharomyces) : 6 jeux de données d’interactions de protéines dansla levure obtenus par double hybridation (2), spectrométrie de masse(4)⇒ 6 graphes sur lesquels les algorithmes sont appliqués.

Validation : Retrouver les complexes cités dans MIPS.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31

Page 60: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologie de comparaison

Deux jeux de données sont utilisés :1 Collection de complexes protéiniques (MIPS) : Un graphe est

construit avec :sommets = protéines ;arêtes = appartenance au même complexe.

Puis altération du graphe initial (trop simple) par ajout et délétionaléatoire d’arêtes.But : Retrouver les complexes !

2 Graphe d’interactions de protéines (GRID) (levure yeastsaccharomyces) : 6 jeux de données d’interactions de protéines dansla levure obtenus par double hybridation (2), spectrométrie de masse(4)⇒ 6 graphes sur lesquels les algorithmes sont appliqués.

Validation : Retrouver les complexes cités dans MIPS.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31

Page 61: Compte-rendu bibliographique sur les réseaux biologiques III

Méthodologie de comparaison

Deux jeux de données sont utilisés :1 Collection de complexes protéiniques (MIPS) : Un graphe est

construit avec :sommets = protéines ;arêtes = appartenance au même complexe.

Puis altération du graphe initial (trop simple) par ajout et délétionaléatoire d’arêtes.But : Retrouver les complexes !

2 Graphe d’interactions de protéines (GRID) (levure yeastsaccharomyces) : 6 jeux de données d’interactions de protéines dansla levure obtenus par double hybridation (2), spectrométrie de masse(4)⇒ 6 graphes sur lesquels les algorithmes sont appliqués.Validation : Retrouver les complexes cités dans MIPS.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 26 / 31

Page 62: Compte-rendu bibliographique sur les réseaux biologiques III

Évaluation de la qualité

Sensibilité du point du vue du complexe : couverture du complexepar la meilleur classe (ie : % maximum du complexe retrouvé dansles classes) ;

Prédiction positive du point de vue de la classe : % maximum,pour une classe donnée, de représentation d’un complexe.

Les moyennes, respectivement sur tous les complexes et toutes lesclasses.Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31

Page 63: Compte-rendu bibliographique sur les réseaux biologiques III

Évaluation de la qualité

Sensibilité du point du vue du complexe : couverture du complexepar la meilleur classe (ie : % maximum du complexe retrouvé dansles classes) ;

Prédiction positive du point de vue de la classe : % maximum,pour une classe donnée, de représentation d’un complexe.

Les moyennes, respectivement sur tous les complexes et toutes lesclasses.Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31

Page 64: Compte-rendu bibliographique sur les réseaux biologiques III

Évaluation de la qualité

Sensibilité du point du vue du complexe : couverture du complexepar la meilleur classe (ie : % maximum du complexe retrouvé dansles classes) ;

Prédiction positive du point de vue de la classe : % maximum,pour une classe donnée, de représentation d’un complexe.

Les moyennes, respectivement sur tous les complexes et toutes lesclasses.

Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31

Page 65: Compte-rendu bibliographique sur les réseaux biologiques III

Évaluation de la qualité

Sensibilité du point du vue du complexe : couverture du complexepar la meilleur classe (ie : % maximum du complexe retrouvé dansles classes) ;

Prédiction positive du point de vue de la classe : % maximum,pour une classe donnée, de représentation d’un complexe.

Les moyennes, respectivement sur tous les complexes et toutes lesclasses.Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).

⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31

Page 66: Compte-rendu bibliographique sur les réseaux biologiques III

Évaluation de la qualité

Sensibilité du point du vue du complexe : couverture du complexepar la meilleur classe (ie : % maximum du complexe retrouvé dansles classes) ;

Prédiction positive du point de vue de la classe : % maximum,pour une classe donnée, de représentation d’un complexe.

Les moyennes, respectivement sur tous les complexes et toutes lesclasses.Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 27 / 31

Page 67: Compte-rendu bibliographique sur les réseaux biologiques III

Perspectives : données

Interactions : Interactions de protéines issues de BioGRID

Informations :INTERACTOR_A : Unique ID for Interacting Partner AINTERACTOR_B : Unique ID for Interacting Partner BOFFICIAL_SYMBOL FOR AOFFICIAL_SYMBOL FOR BALIASES_FOR_A : List of common names for geneAALIASES_FOR_B : List of common names for geneBEXPERIMENTAL_SYSTEM : System in which the interaction was shownSOURCE : Author(s) of the interactionPUBMED_ID : PubMed ID of the paper, separated by ’ ;’ORGANISM_A_ID : NCBI ID of Gene A OrganismORGANISM_B_ID : NCBI ID of Gene B Organism

Exemple : YFL039C ; YBR243C ; ACT1 ; ALG7 ; ABY1|END7 ; TUR1 ;Synthetic Lethality ; Davierwala AP (2005) ; 16155567 ; 4932 ; 4932

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31

Page 68: Compte-rendu bibliographique sur les réseaux biologiques III

Perspectives : données

Interactions : Interactions de protéines issues de BioGRID

Saccharomyces cerevisiae

Informations :INTERACTOR_A : Unique ID for Interacting Partner AINTERACTOR_B : Unique ID for Interacting Partner BOFFICIAL_SYMBOL FOR AOFFICIAL_SYMBOL FOR BALIASES_FOR_A : List of common names for geneAALIASES_FOR_B : List of common names for geneBEXPERIMENTAL_SYSTEM : System in which the interaction was shownSOURCE : Author(s) of the interactionPUBMED_ID : PubMed ID of the paper, separated by ’ ;’ORGANISM_A_ID : NCBI ID of Gene A OrganismORGANISM_B_ID : NCBI ID of Gene B Organism

Exemple : YFL039C ; YBR243C ; ACT1 ; ALG7 ; ABY1|END7 ; TUR1 ;Synthetic Lethality ; Davierwala AP (2005) ; 16155567 ; 4932 ; 4932

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31

Page 69: Compte-rendu bibliographique sur les réseaux biologiques III

Perspectives : données

Interactions : Interactions de protéines issues de BioGRIDInformations :

INTERACTOR_A : Unique ID for Interacting Partner A

INTERACTOR_B : Unique ID for Interacting Partner B

OFFICIAL_SYMBOL FOR A

OFFICIAL_SYMBOL FOR B

ALIASES_FOR_A : List of common names for geneA

ALIASES_FOR_B : List of common names for geneB

EXPERIMENTAL_SYSTEM : System in which the interaction was shown

SOURCE : Author(s) of the interaction

PUBMED_ID : PubMed ID of the paper, separated by ’ ;’

ORGANISM_A_ID : NCBI ID of Gene A Organism

ORGANISM_B_ID : NCBI ID of Gene B Organism

Exemple : YFL039C ; YBR243C ; ACT1 ; ALG7 ; ABY1|END7 ; TUR1 ;Synthetic Lethality ; Davierwala AP (2005) ; 16155567 ; 4932 ; 4932

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 28 / 31

Page 70: Compte-rendu bibliographique sur les réseaux biologiques III

Quelques statistiques élémentaires sur le jeu dedonnées

Nombre de données : 42 254 observations acquises sur R sur 230 370lignes (saturation de la mémoire...) : protéines ? gènes ?

Sur ces observations acquises :“Experimental system” :

Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;

Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage

Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic

Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;

Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)

Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;11,24 interactions en moyenne ; nombre médian d’interactions : 2)Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17interactions, médiane de 9 interactions)Quel réseau à partir de ces données ?

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31

Page 71: Compte-rendu bibliographique sur les réseaux biologiques III

Quelques statistiques élémentaires sur le jeu dedonnées

Nombre de données : 42 254 observations acquises sur R sur 230 370lignes (saturation de la mémoire...) : protéines ? gènes ?Sur ces observations acquises :“Experimental system” :

Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;

Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage

Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic

Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;

Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)

Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;11,24 interactions en moyenne ; nombre médian d’interactions : 2)Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17interactions, médiane de 9 interactions)Quel réseau à partir de ces données ?

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31

Page 72: Compte-rendu bibliographique sur les réseaux biologiques III

Quelques statistiques élémentaires sur le jeu dedonnées

Nombre de données : 42 254 observations acquises sur R sur 230 370lignes (saturation de la mémoire...) : protéines ? gènes ?Sur ces observations acquises :“Experimental system” :

Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;

Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage

Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic

Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;

Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)

Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;11,24 interactions en moyenne ; nombre médian d’interactions : 2)Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17interactions, médiane de 9 interactions)

Quel réseau à partir de ces données ?

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31

Page 73: Compte-rendu bibliographique sur les réseaux biologiques III

Quelques statistiques élémentaires sur le jeu dedonnées

Nombre de données : 42 254 observations acquises sur R sur 230 370lignes (saturation de la mémoire...) : protéines ? gènes ?Sur ces observations acquises :“Experimental system” :

Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;

Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage

Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic

Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;

Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)

Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;11,24 interactions en moyenne ; nombre médian d’interactions : 2)Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17interactions, médiane de 9 interactions)Quel réseau à partir de ces données ?

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 29 / 31

Page 74: Compte-rendu bibliographique sur les réseaux biologiques III

Autres sources d’interactomes

DIP database of interacting proteins

EMBL-EBI Interact

BIND Biomolecular interaction network database

MIPS Mammalian protein-protein interaction database (ndlr :beaucoup plus petite)

GRID general repository for interaction datasets

. . . (j’en ai recensé plus de 25 !)

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 30 / 31

Page 75: Compte-rendu bibliographique sur les réseaux biologiques III

Validation ?

Validation biologique : données de référence

Pas trouvé la BD MIPS sur les complexes...

Il existe d’autres bases de complexes de protéines (3D Complex.org ;Yeast Complex Web ∼ environ 500 complexes ...)

Package R, apComplex contenant les données de : Ho, et al.Systematic identification of protein complexes in Saccharomycescerevisiae by mass spectrometry. Nature 415, 180-183 (2002).,Krogan, et al. High-Definition Macromolecular Composition of YeastRNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30January 2004.

GO ? ? ? FunCat ? ? ?

Autres idées ?

Validation : mesures : mesures de consensus entre une classification deréférence et la classification trouvée (biologique) ; mesures de qualité dela classification par rapport à la structure (statistique)

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31

Page 76: Compte-rendu bibliographique sur les réseaux biologiques III

Validation ?

Validation biologique : données de référence

Pas trouvé la BD MIPS sur les complexes...

Il existe d’autres bases de complexes de protéines (3D Complex.org ;Yeast Complex Web ∼ environ 500 complexes ...)

Package R, apComplex contenant les données de : Ho, et al.Systematic identification of protein complexes in Saccharomycescerevisiae by mass spectrometry. Nature 415, 180-183 (2002).,Krogan, et al. High-Definition Macromolecular Composition of YeastRNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30January 2004.

GO ? ? ? FunCat ? ? ?

Autres idées ?

Validation : mesures : mesures de consensus entre une classification deréférence et la classification trouvée (biologique) ; mesures de qualité dela classification par rapport à la structure (statistique)

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31

Page 77: Compte-rendu bibliographique sur les réseaux biologiques III

Brohée, S. and van Helden, J. (2006).Evaluation of clustering algorithms for protein-protein interaction networks.BMC Bioinformatics, 7(488).

Enright, A., Van Dongen, S., and Ouzounis, C. (2002).An efficient algorithm for large-scale detection of protein families.Nucleic Acids Research, 30(7) :1575–1584.

Fortunato, S. (2009).Community detection in graphs.Submitted for publication. Available at http://arxiv.org/abs/0906.0612.

Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).Random-walk computation of similarities between nodes of a graph, with application to collaborative recommendation.IEEE Transactions on Knowledge and Data Engineering, 19(3) :355–369.

Guillemot, V., Le Brusquet, L., Tenenhaus, A., and Frouin, V. (2008).Graph-constrained discriminant analysis of functional genomics data.In In proceedings of IEEE International Conference on Bioinformatics and Biomedecine Workshops, Philadelphia, USA.

Kondor, R. and Lafferty, J. (2002).Diffusion kernels on graphs and other discrete structures.In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.

van Dongen, S. (2000).Graph clustering by flow simulation.PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, TheNederlands.

von Luxburg, U. (2007).A tutorial on spectral clustering.Statistics and Computing, 17(4) :395–416.

Yamanishi, Y., Vert, J., Nakaya, A., and Kanehisa, M. (2003).Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31

Page 78: Compte-rendu bibliographique sur les réseaux biologiques III

Bioinformatics, 19 :323i–330i.

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 31 / 31