Compte-rendu bibliographique sur les réseaux biologiques III

Compte-rendu bibliographique sur les réseauxbiologiques III

Nathalie Villa-Vialaneixhttp ://www.nathalievilla.org

Institut de Mathématiques de ToulouseIUT de Carcassonne (Université de Perpignan)

Groupe de travail BioPuces, INRA de Castanet8 janvier 2010

BioPuces (08/01/10) Nathalie Villa Biblio. réseaux biologiques 1 / 31

Vue d’ensemble des thématiques

⇒ ⇒ CompréhensionInférence de graphes Analyse du graphe

• non supervisée • Recherche de motifs• semi supervisée • Classification de sommets


Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées




Sommets (ou nœuds) / en anglais : vertices, nodes

35

7 6,15

4,35

2

4

3.4





SommetsArêtes / en anglais : edges

35

7 6,15

4,35

2

4

3.4





35

7 6,15

4,35

2

4

3.4



Notations

Dans la suite, on notera G un graphe

de sommets V = {x1, . . . , xn} (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.


Sommaire

1 Inférence de graphes

2 Recherche de motifs

3 Recherche de modules : classification des sommets


Sommaire





Références

1 Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach toinferring large-scale gene association networks. Bioinformatics, 21(6),pp 754-764.

2 Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervisedenzyme network inference from the integration of genomic data andchemical information. Bioinformatics, 21(Supp. 1), i468-i477.

3 Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration ofmultiple biological data for supervised network inference.Bioinformatics, 21(10), 2488-2495.

4 Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.(2007) Inferring biological networks with output kernel trees. BMCBioinformatics, 8(Supp. 2).


Sommaire





Références

1 Shen-Orr S.S., Milo R., Mangan S. and Alon U. (2002) Networkmotifs in the transcriptional regulation network of Escherichia Coli.Nature genetics, 31, 64-68.

2 Proulx S.R., Promislow D.E.L. and Phillips P.C. (2005) Networkthinking in ecology and evolution. Trends in Ecology and Evolution,20(6), 345-353.

3 Siegal M., Promislow D.E.L. and Bergman A. (2007) Functionaland evolutionary inference in gene networks : does topology matter ?Genetica, 129, 83-103.


Sommaire





Recherche de modules, classification de sommets

Problème particulier posé par la classification de sommets dans ungraphe : il n’y a pas de “distance” naturelle entre sommets d’un graphedonc pas de manière simple d’utiliser les algorithmes de classificationusuels (k -means, CAH ...)

Trois grandes familles de méthodes :

méthodes basées sur la définition d’une similarité ou d’un noyau ;

méthodes basées sur l’optimisation d’un critère de qualité ;

méthodes basées sur un modèle de graphe aléatoire.


Recherche de modules, classification de sommets

Problème particulier posé par la classification de sommets dans ungraphe : il n’y a pas de “distance” naturelle entre sommets d’un graphedonc pas de manière simple d’utiliser les algorithmes de classificationusuels (k -means, CAH ...)Trois grandes familles de méthodes :

méthodes basées sur la définition d’une similarité ou d’un noyau ;

méthodes basées sur l’optimisation d’un critère de qualité ;

méthodes basées sur un modèle de graphe aléatoire.


Principe des méthodes à noyau

Le noyau K permet de passer d’un graphe à un espace vectoriel usuel(avec une distance) :

Graphe Espace vectoriel H ∼ Rn

Pas de métrique Une distance : d(u, v) =√〈u − v , u − v〉H

Un sommet xi L’image du sommet φ(xi)

On définit la “distance” entre deux sommets par :

d(φ(xi), φ(xj)) =√

K(xi , xi) + K(xj , xj) − 2K(xi , xj)

⇒ uniquement à partir du noyau !


Noyaux basés sur le Laplacien

Les noyaux fréquemment utilisés sont des versions régularisées duLaplacien :

L =

{−wij si i , jdi =

∑j,i wij sinon.

car cette matrice a des propriétés intéressantes en relation avec lastructure du graphe.


Propriétés du Laplacien I [von Luxburg, 2007]

Composantes connexesKerL = Span{IA1 , . . . , IAk } où Ai indique les positions des sommets de laième composante connexe du graphe.

1

4

5

2

3

KerL = Span

10011

;

01100

Remarque : Il existe d’autres propriétés algébriques plus fines entre lastructure du graphe et les valeurs propres du Laplacien.


Propriétés du Laplacien III [von Luxburg, 2007]

Problème de la coupe optimale : Supposons que le graphe soit connexe.Trouver une classification des sommets du graphe, A1, . . . ,Ak telle que

12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale , est équivalent à

H = arg minh∈Rn×k

Tr(hT Lh

)subject to

hT h = Ihi = 1/

√|Ai |1Ai

peut être approché par


Tr(hT Lh

)subject to hT h = I

Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).




12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale , est équivalent à


Tr(hT Lh

)subject to

hT h = Ihi = 1/

√|Ai |1Ai

⇒ problème NP-complet.

peut être approché par


Tr(hT Lh






12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′

est minimale peut être approché par


Tr(hT Lh






12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′



Tr(hT Lh


Spectral clustering : Trouver les vecteurs propres associés aux k pluspetites valeurs propres de L , H, et faire la classification sur les colonnesde H.

Quelques problèmes du “spectral clustering” : Utilisation d’une partiedu spectre seulement (laquelle ?), a tendance à produire un faible nombrede classes de très grosses tailles et beaucoup de micro classes (un à cinqindividus).




12

k∑i=1

∑j∈Ai ,j′<Ai

wj,j′



Tr(hT Lh




Des versions régularisées de L

1 La matrice de diffusion [Kondor and Lafferty, 2002] : pour β > 0,Kβ = e−βL =

∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R

(xi , xj) → Kβi,j

noyau de diffusion (ou noyau de la chaleur)

' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

3 . . .




∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R


noyau de diffusion (ou noyau de la chaleur)' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.

' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

3 . . .




∑+∞k=1

(−βL)k

k ! .⇒

Kβ : V × V → R


noyau de diffusion (ou noyau de la chaleur)' Quantité d’énergie reçue en xi lorsque l’énergie est injectée en xj etque la diffusion se fait de manière continue le long des arêtes dugraphe.

2 L’inverse généralisée du Laplacien [Fouss et al., 2007] : K = L+.' Temps moyen pour atteindre xi à partir de xj lors d’une marchealéatoire sur le graphe.

3 . . .


Exemples : [Yamanishi et al., 2003] and[Guillemot et al., 2008]

Références complètes :

Y. Yamanishi, J.-P. Vert, A. Nakaya and M. Kanehisa (2003) Extractionof correlated gene clusters from multiple genomic data by generalizedkernel canonical correlation analysis. Bioinformatics, 19, p323i-330i.

V. Guillemot, L. Le Brusquet, A. Tenenhaus and V. Frouin (2008)Graph-constrained discriminant analysis of functional genomic data.Proceedings of IEEE International Conference on Bioinformatics andBiomedecine Workshops, Philadelphia, USA.


Classification à partir de données multiples : KCCA[Yamanishi et al., 2003]

Les données : KEGC/LIGAND database (données des composants etréactions dans les voies métaboliques)⇒ graphe dont les sommets sontles gènes d’un organisme et deux sommets sont liés si les gènescatalysent deux réactions successives dans la même voie.

KEGC/BRITE database (données de positions des gènes)⇒ graphe dontles sommets sont des gènes et deux sommets sont liés si les gènes sontvoisins sur un même chromosome.ExpressDB (données d’expression de gènes de E. Coli dans de multiplesexpériences)⇒ données multivariées (pour chaque gène, l’expressiondans 4 conditions expérimentales).But : Comprendre comment ces données interagissent.



Les données : KEGC/LIGAND database (données des composants etréactions dans les voies métaboliques)⇒ graphe dont les sommets sontles gènes d’un organisme et deux sommets sont liés si les gènescatalysent deux réactions successives dans la même voie.KEGC/BRITE database (données de positions des gènes)⇒ graphe dontles sommets sont des gènes et deux sommets sont liés si les gènes sontvoisins sur un même chromosome.

ExpressDB (données d’expression de gènes de E. Coli dans de multiplesexpériences)⇒ données multivariées (pour chaque gène, l’expressiondans 4 conditions expérimentales).But : Comprendre comment ces données interagissent.



Les données : KEGC/LIGAND database (données des composants etréactions dans les voies métaboliques)⇒ graphe dont les sommets sontles gènes d’un organisme et deux sommets sont liés si les gènescatalysent deux réactions successives dans la même voie.KEGC/BRITE database (données de positions des gènes)⇒ graphe dontles sommets sont des gènes et deux sommets sont liés si les gènes sontvoisins sur un même chromosome.ExpressDB (données d’expression de gènes de E. Coli dans de multiplesexpériences)⇒ données multivariées (pour chaque gène, l’expressiondans 4 conditions expérimentales).

But : Comprendre comment ces données interagissent.



Les données : KEGC/LIGAND database (données des composants etréactions dans les voies métaboliques)⇒ graphe dont les sommets sontles gènes d’un organisme et deux sommets sont liés si les gènescatalysent deux réactions successives dans la même voie.KEGC/BRITE database (données de positions des gènes)⇒ graphe dontles sommets sont des gènes et deux sommets sont liés si les gènes sontvoisins sur un même chromosome.ExpressDB (données d’expression de gènes de E. Coli dans de multiplesexpériences)⇒ données multivariées (pour chaque gène, l’expressiondans 4 conditions expérimentales).But : Comprendre comment ces données interagissent.


Méthodologies

1 Un noyau pour le graphe issu des voies métaboliques (noyau de lachaleur) et la somme de deux noyaux pour le graphe issu desvoisinages (noyau de la chaleur) et les données multivariées (noyaugaussien : K(u, v) = e−γ‖u−v‖2)⇒ deux espaces vectoriels.

Analyse canonique des corrélations pénalisée entre ces deuxespaces (la pénalité est la norme des axes de projection dansl’espace noyau).

2 Trois noyaux (un pour chaque donnée)⇒ trois espaces vectoriels.Analyse canonique des corrélations multiples pénalisée.

Les “classes” sont les gènes ayant des composantes fortes sur un desaxes (5% les plus fortes et 5% les moins fortes).Résultats : Certains groupes de gènes sont de meilleurs candidatsopérons que ceux fournis par “Operon Data Library” (4 consécutifs sur unemême voie plutôt que 3 avec un “trou” au milieu).


Méthodologies

1 Un noyau pour le graphe issu des voies métaboliques (noyau de lachaleur) et la somme de deux noyaux pour le graphe issu desvoisinages (noyau de la chaleur) et les données multivariées (noyaugaussien : K(u, v) = e−γ‖u−v‖2)⇒ deux espaces vectoriels.Analyse canonique des corrélations pénalisée entre ces deuxespaces (la pénalité est la norme des axes de projection dansl’espace noyau).

2 Trois noyaux (un pour chaque donnée)⇒ trois espaces vectoriels.

Analyse canonique des corrélations multiples pénalisée.



Méthodologies





Méthodologies



Les “classes” sont les gènes ayant des composantes fortes sur un desaxes (5% les plus fortes et 5% les moins fortes).

Résultats : Certains groupes de gènes sont de meilleurs candidatsopérons que ceux fournis par “Operon Data Library” (4 consécutifs sur unemême voie plutôt que 3 avec un “trou” au milieu).


Méthodologies





Discrimination pénalisée par la structure du graphe

Les données : 100 gènes choisis aléatoirement dans la base de donnéesAlon⇒ (par régression PLS) graphe des dépendances entre gènes (avecla moitié de la base de données) & données multivariées (expression desgènes : les gènes sont ici les variables).

But : Combiner l’information de l’expression et l’information donnée par legraphe pour discriminer les observations issues de tissus cancéreux et detissus normaux (cancer du colon).Méthodologie : Analyse discriminante pénalisée par la norme induite parle Laplacien.Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %contre 4,5 % pour un SVM sur les données multivariées.



Les données : 100 gènes choisis aléatoirement dans la base de donnéesAlon⇒ (par régression PLS) graphe des dépendances entre gènes (avecla moitié de la base de données) & données multivariées (expression desgènes : les gènes sont ici les variables).But : Combiner l’information de l’expression et l’information donnée par legraphe pour discriminer les observations issues de tissus cancéreux et detissus normaux (cancer du colon).

Méthodologie : Analyse discriminante pénalisée par la norme induite parle Laplacien.Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %contre 4,5 % pour un SVM sur les données multivariées.



Les données : 100 gènes choisis aléatoirement dans la base de donnéesAlon⇒ (par régression PLS) graphe des dépendances entre gènes (avecla moitié de la base de données) & données multivariées (expression desgènes : les gènes sont ici les variables).But : Combiner l’information de l’expression et l’information donnée par legraphe pour discriminer les observations issues de tissus cancéreux et detissus normaux (cancer du colon).Méthodologie : Analyse discriminante pénalisée par la norme induite parle Laplacien.

Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %contre 4,5 % pour un SVM sur les données multivariées.



Les données : 100 gènes choisis aléatoirement dans la base de donnéesAlon⇒ (par régression PLS) graphe des dépendances entre gènes (avecla moitié de la base de données) & données multivariées (expression desgènes : les gènes sont ici les variables).But : Combiner l’information de l’expression et l’information donnée par legraphe pour discriminer les observations issues de tissus cancéreux et detissus normaux (cancer du colon).Méthodologie : Analyse discriminante pénalisée par la norme induite parle Laplacien.Résultats : Cette approche permet d’avoir un taux d’erreur de 3,75 %contre 4,5 % pour un SVM sur les données multivariées.


Markov Clustering (MCL)

Références :

van Dongen, S. (2000) Graph clustering by flow simulation. PhDthesis, Dutch National Research Institut for Mathematics andComputer Science in the Nederlands, Amsterdam, The Nederlands.

Enright A.J., Van Dongen S. and Ouzounis C.A. (2002) An efficientalgorithm for large-scale detection of protein families. Nucleic AcidsResearch, 30(7), p1575-1584.

Brohée, S. and van Helden, J. (2006) Evaluation of clusteringalgorithms for protein-protein interaction networks. BMCBioinformatics, 7(488).

Selon [Fortunato, 2009], “the MCL is one of the most used clusteringalgorithms in bioinformatics”.


Relation entre noyau de la chaleur, marche aléatoireet markov clustering

Remarque introductive sur noyau de la chaleur et marche aléatoire :Si Z0 = (1 1 1 . . . 1 1)T est le score « d’énergie » dans chaque sommet dugraphe et si cette énergie est diffusée le long des arêtes du grapheselon une petite fraction ε sur chaque arête et à chaque pas de temps.Alors, au bout de n pas de temps, le score dans les sommets du graphes’écrit :

Zn = (1 + εL)n Z0

Limites : Pas de temps↘ : n ↪→ t/(∆t) et α ↪→ α∆t puis (∆t)→ 0(processus continu) ; alors,

lim Zn = eαtL = kαt


Description de la méthode MCL [van Dongen, 2000]

Si A est la matrice d’adjacence du graphe (matrice des poids avec des 0dans la diagonale), on définit P :

Pij = Aij/di

qui donne la probabilité d’arriver en j en partant de i en un pasaléatoire sur le graphe.

Expansion : P ← P2 (Ppij donne la probabilité, avec une marche

aléatoire de p pas d’arriver en j à partir de i)⇒ phase de marchealéatoire ;

Inflation : Pij ← Pαij (pas d’interprétation physique) c’est une phase

de normalisation qui correspond à une augmentation de la longueurdes chemins (amplifier la préférence pour les couples de sommetsles plus facilement joignables).


Discussion sur MCL

Convergence (parfois ; assurée si le graphe est non orientée) vers unematrice doublement idempotent : c’est la matrice d’un graphe séparé encomposantes disjointes ; chaque composante est organisé autour d’unou plusieurs pôles attracteurs autour desquels les sommets sontorganisés en étoile.

Problème pratique : Méthode très sensible au paramètre d’inflation α quiconduit à la calibration du nombre de classes.Application [Enright et al., 2002] : sommets = protéines ; arêtes =similarité entre protéines selon BLAST (bases de données InterPro etSCOP). Comparaison avec les familles de protéines données dans lesbases de données.⇒ environ 80 % de consensus avec les bases dedonnées existantes.


Discussion sur MCL

Convergence (parfois ; assurée si le graphe est non orientée) vers unematrice doublement idempotent : c’est la matrice d’un graphe séparé encomposantes disjointes ; chaque composante est organisé autour d’unou plusieurs pôles attracteurs autour desquels les sommets sontorganisés en étoile.Problème pratique : Méthode très sensible au paramètre d’inflation α quiconduit à la calibration du nombre de classes.

Application [Enright et al., 2002] : sommets = protéines ; arêtes =similarité entre protéines selon BLAST (bases de données InterPro etSCOP). Comparaison avec les familles de protéines données dans lesbases de données.⇒ environ 80 % de consensus avec les bases dedonnées existantes.


Discussion sur MCL

Convergence (parfois ; assurée si le graphe est non orientée) vers unematrice doublement idempotent : c’est la matrice d’un graphe séparé encomposantes disjointes ; chaque composante est organisé autour d’unou plusieurs pôles attracteurs autour desquels les sommets sontorganisés en étoile.Problème pratique : Méthode très sensible au paramètre d’inflation α quiconduit à la calibration du nombre de classes.Application [Enright et al., 2002] : sommets = protéines ; arêtes =similarité entre protéines selon BLAST (bases de données InterPro etSCOP). Comparaison avec les familles de protéines données dans lesbases de données.

⇒ environ 80 % de consensus avec les bases dedonnées existantes.


Discussion sur MCL

Convergence (parfois ; assurée si le graphe est non orientée) vers unematrice doublement idempotent : c’est la matrice d’un graphe séparé encomposantes disjointes ; chaque composante est organisé autour d’unou plusieurs pôles attracteurs autour desquels les sommets sontorganisés en étoile.Problème pratique : Méthode très sensible au paramètre d’inflation α quiconduit à la calibration du nombre de classes.Application [Enright et al., 2002] : sommets = protéines ; arêtes =similarité entre protéines selon BLAST (bases de données InterPro etSCOP). Comparaison avec les familles de protéines données dans lesbases de données.⇒ environ 80 % de consensus avec les bases dedonnées existantes.


Comparaisons de MCL avec d’autres approches[Brohée and van Helden, 2006]

Brève présentation des approches comparées :

MCL

Restricted Neighborhood Search Clustering (RNSC) : algorithmelocal basé sur l’optimisation d’une fonction de coût (nombre d’arêtesinter et intra classes) ;

Super Paramagnetic Clustering (SPC) : algorithme hiérarchiquebasé sur des propriétés physiques des modèles ferromagnétiques ;

Molecular Complex Detection (MCODE) : recherche locale paraggrégation de régions de forte densité.


Méthodologie de comparaison

Deux jeux de données sont utilisés :1 Collection de complexes protéiniques (MIPS) : Un graphe est

construit avec :sommets = protéines ;arêtes = appartenance au même complexe.

Puis altération du graphe initial (trop simple) par ajout et délétionaléatoire d’arêtes.But : Retrouver les complexes !

2 Graphe d’interactions de protéines (GRID) (levure yeastsaccharomyces) : 6 jeux de données d’interactions de protéines dansla levure obtenus par double hybridation (2), spectrométrie de masse(4)⇒ 6 graphes sur lesquels les algorithmes sont appliqués.

Validation : Retrouver les complexes cités dans MIPS.


Méthodologie de comparaison

Deux jeux de données sont utilisés :1 Collection de complexes protéiniques (MIPS) : Un graphe est

construit avec :sommets = protéines ;arêtes = appartenance au même complexe.

Puis altération du graphe initial (trop simple) par ajout et délétionaléatoire d’arêtes.But : Retrouver les complexes !

2 Graphe d’interactions de protéines (GRID) (levure yeastsaccharomyces) : 6 jeux de données d’interactions de protéines dansla levure obtenus par double hybridation (2), spectrométrie de masse(4)⇒ 6 graphes sur lesquels les algorithmes sont appliqués.Validation : Retrouver les complexes cités dans MIPS.


Évaluation de la qualité

Sensibilité du point du vue du complexe : couverture du complexepar la meilleur classe (ie : % maximum du complexe retrouvé dansles classes) ;

Prédiction positive du point de vue de la classe : % maximum,pour une classe donnée, de représentation d’un complexe.

Les moyennes, respectivement sur tous les complexes et toutes lesclasses.Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.





Les moyennes, respectivement sur tous les complexes et toutes lesclasses.

Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.





Les moyennes, respectivement sur tous les complexes et toutes lesclasses.Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).

⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.





Les moyennes, respectivement sur tous les complexes et toutes lesclasses.Remarque importante : Lorsque le nombre de classes diminue, lasensibilité augmente (elle vaut 1 pour une seule classe) et la prédictionpositive diminue (elle vaut 1 pour un nombre de classes égal au nombrede protéines classées).⇒ Précision géométrique : Moyenne géométrique de la sensibilité et dela prédiction positive.


Perspectives : données

Interactions : Interactions de protéines issues de BioGRID

Informations :INTERACTOR_A : Unique ID for Interacting Partner AINTERACTOR_B : Unique ID for Interacting Partner BOFFICIAL_SYMBOL FOR AOFFICIAL_SYMBOL FOR BALIASES_FOR_A : List of common names for geneAALIASES_FOR_B : List of common names for geneBEXPERIMENTAL_SYSTEM : System in which the interaction was shownSOURCE : Author(s) of the interactionPUBMED_ID : PubMed ID of the paper, separated by ’ ;’ORGANISM_A_ID : NCBI ID of Gene A OrganismORGANISM_B_ID : NCBI ID of Gene B Organism

Exemple : YFL039C ; YBR243C ; ACT1 ; ALG7 ; ABY1|END7 ; TUR1 ;Synthetic Lethality ; Davierwala AP (2005) ; 16155567 ; 4932 ; 4932



Interactions : Interactions de protéines issues de BioGRID

Saccharomyces cerevisiae

Informations :INTERACTOR_A : Unique ID for Interacting Partner AINTERACTOR_B : Unique ID for Interacting Partner BOFFICIAL_SYMBOL FOR AOFFICIAL_SYMBOL FOR BALIASES_FOR_A : List of common names for geneAALIASES_FOR_B : List of common names for geneBEXPERIMENTAL_SYSTEM : System in which the interaction was shownSOURCE : Author(s) of the interactionPUBMED_ID : PubMed ID of the paper, separated by ’ ;’ORGANISM_A_ID : NCBI ID of Gene A OrganismORGANISM_B_ID : NCBI ID of Gene B Organism




Interactions : Interactions de protéines issues de BioGRIDInformations :

INTERACTOR_A : Unique ID for Interacting Partner A

INTERACTOR_B : Unique ID for Interacting Partner B

OFFICIAL_SYMBOL FOR A

OFFICIAL_SYMBOL FOR B

ALIASES_FOR_A : List of common names for geneA

ALIASES_FOR_B : List of common names for geneB

EXPERIMENTAL_SYSTEM : System in which the interaction was shown

SOURCE : Author(s) of the interaction

PUBMED_ID : PubMed ID of the paper, separated by ’ ;’

ORGANISM_A_ID : NCBI ID of Gene A Organism

ORGANISM_B_ID : NCBI ID of Gene B Organism



Quelques statistiques élémentaires sur le jeu dedonnées

Nombre de données : 42 254 observations acquises sur R sur 230 370lignes (saturation de la mémoire...) : protéines ? gènes ?

Sur ces observations acquises :“Experimental system” :

Affinity Capture-Luminescence (29) ; Affinity Capture-MS (13 623) ; Affinity Capture-RNA (2 547) ; Affinity Capture-Western (2 427) ;

Biochemical Activity (992) ; Co-crystal Structure (76) ; Co-fractionation (527) ; Co-localization (57) ; Co-purification (1 379) ; Dosage

Growth Defect (40) ; Dosage Lethality (459) ; Dosage Rescue ( 1 600) ; Far Western (19) ; FRET (45) ; PCA (7) ; Phenotypic

Enhancement (1 813) ; Phenotypic Suppression (809) ; Protein-peptide (22) ; Protein-RNA (162) ; Reconstituted Complex (536) ;

Synthetic Growth Defect (2 616) ; Synthetic Lethality (7 969) ; Synthetic Rescue (1 379) ; Two-hybrid (3 121)

Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;11,24 interactions en moyenne ; nombre médian d’interactions : 2)Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17interactions, médiane de 9 interactions)Quel réseau à partir de ces données ?



Nombre de données : 42 254 observations acquises sur R sur 230 370lignes (saturation de la mémoire...) : protéines ? gènes ?Sur ces observations acquises :“Experimental system” :















Les sources : 3 759 publications (de 1 à 3 873 interactions par source ;11,24 interactions en moyenne ; nombre médian d’interactions : 2)Éléments : 4 968 éléments, d’après le “symbole officiel” (protéines ?gènes ? autres ?) ; de 1 à 2 558 interactions par élément (en moyenne 17interactions, médiane de 9 interactions)

Quel réseau à partir de ces données ?


Autres sources d’interactomes

DIP database of interacting proteins

EMBL-EBI Interact

BIND Biomolecular interaction network database

MIPS Mammalian protein-protein interaction database (ndlr :beaucoup plus petite)

GRID general repository for interaction datasets

. . . (j’en ai recensé plus de 25 !)


Validation ?

Validation biologique : données de référence

Pas trouvé la BD MIPS sur les complexes...

Il existe d’autres bases de complexes de protéines (3D Complex.org ;Yeast Complex Web ∼ environ 500 complexes ...)

Package R, apComplex contenant les données de : Ho, et al.Systematic identification of protein complexes in Saccharomycescerevisiae by mass spectrometry. Nature 415, 180-183 (2002).,Krogan, et al. High-Definition Macromolecular Composition of YeastRNA-Processing Complexes ; Molecular Cell, Vol 13, 225-239, 30January 2004.

GO ? ? ? FunCat ? ? ?

Autres idées ?

Validation : mesures : mesures de consensus entre une classification deréférence et la classification trouvée (biologique) ; mesures de qualité dela classification par rapport à la structure (statistique)


Brohée, S. and van Helden, J. (2006).Evaluation of clustering algorithms for protein-protein interaction networks.BMC Bioinformatics, 7(488).

Enright, A., Van Dongen, S., and Ouzounis, C. (2002).An efficient algorithm for large-scale detection of protein families.Nucleic Acids Research, 30(7) :1575–1584.

Fortunato, S. (2009).Community detection in graphs.Submitted for publication. Available at http://arxiv.org/abs/0906.0612.

Fouss, F., Pirotte, A., Renders, J., and Saerens, M. (2007).Random-walk computation of similarities between nodes of a graph, with application to collaborative recommendation.IEEE Transactions on Knowledge and Data Engineering, 19(3) :355–369.

Guillemot, V., Le Brusquet, L., Tenenhaus, A., and Frouin, V. (2008).Graph-constrained discriminant analysis of functional genomics data.In In proceedings of IEEE International Conference on Bioinformatics and Biomedecine Workshops, Philadelphia, USA.

Kondor, R. and Lafferty, J. (2002).Diffusion kernels on graphs and other discrete structures.In Proceedings of the 19th International Conference on Machine Learning, pages 315–322.

van Dongen, S. (2000).Graph clustering by flow simulation.PhD thesis, Dutch National Research Institut for Mathematics and Computer Science in the Nederlands, Amsterdam, TheNederlands.

von Luxburg, U. (2007).A tutorial on spectral clustering.Statistics and Computing, 17(4) :395–416.

Yamanishi, Y., Vert, J., Nakaya, A., and Kanehisa, M. (2003).Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis.


http://arxiv.org/abs/0906.0612

Bioinformatics, 19 :323i–330i.


Compte-rendu bibliographique sur les réseaux biologiques III

Science

Transcript of Compte-rendu bibliographique sur les réseaux biologiques III