Compte-rendu bibliographique sur les réseaux biologiques

67
Compte-rendu bibliographique sur les réseaux biologiques Nathalie Villa-Vialaneix http ://www.nathalievilla.org Institut de Mathématiques de Toulouse IUT de Carcassonne (Université de Perpignan) Groupe de travail BioPuces, INRA de Castanet 9 octobre 2009 BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 1 / 29

description

Groupe de travail BioPuces, INRA d’Auzeville October 9th, 2009

Transcript of Compte-rendu bibliographique sur les réseaux biologiques

Page 1: Compte-rendu bibliographique sur les réseaux biologiques

Compte-rendu bibliographique sur les réseauxbiologiques

Nathalie Villa-Vialaneixhttp ://www.nathalievilla.org

Institut de Mathématiques de ToulouseIUT de Carcassonne (Université de Perpignan)

Groupe de travail BioPuces, INRA de Castanet9 octobre 2009

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 1 / 29

Page 2: Compte-rendu bibliographique sur les réseaux biologiques

Vue d’ensemble des thématiques

⇒ ⇒ CompréhensionInférence de graphes Analyse du graphe

• non supervisée • Recherche de motifs• semi supervisée • Classification de sommets

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 2 / 29

Page 3: Compte-rendu bibliographique sur les réseaux biologiques

Vue d’ensemble des thématiques

⇒ ⇒ CompréhensionInférence de graphes Analyse du graphe

• non supervisée • Recherche de motifs• semi supervisée • Classification de sommets

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 2 / 29

Page 4: Compte-rendu bibliographique sur les réseaux biologiques

Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29

Page 5: Compte-rendu bibliographique sur les réseaux biologiques

Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

Sommets (ou nœuds) / en anglais : vertices, nodes

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29

Page 6: Compte-rendu bibliographique sur les réseaux biologiques

Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

SommetsArêtes / en anglais : edges

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29

Page 7: Compte-rendu bibliographique sur les réseaux biologiques

Qu’est-ce qu’un graphe ?

Structure naturelle pour modéliser des phénomènes de relations entreindividus, objets ...

35

7 6,15

4,35

2

4

3.4

SommetsArêteséventuellement pondérées

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29

Page 8: Compte-rendu bibliographique sur les réseaux biologiques

Notations

Dans la suite, on notera G un graphe

de sommets V = x1, . . . , xn (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ 0; 1.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29

Page 9: Compte-rendu bibliographique sur les réseaux biologiques

Notations

Dans la suite, on notera G un graphe

de sommets V = x1, . . . , xn (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ 0; 1.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29

Page 10: Compte-rendu bibliographique sur les réseaux biologiques

Notations

Dans la suite, on notera G un graphe

de sommets V = x1, . . . , xn (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ 0; 1.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29

Page 11: Compte-rendu bibliographique sur les réseaux biologiques

Notations

Dans la suite, on notera G un graphe

de sommets V = x1, . . . , xn (et de taille n)

dont l’ensemble des arêtes est noté E. E est donc un sous-ensemblede V × V

dont les arêtes sont pondérées par la matrice de poids W telle que

∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0⇔ (xi , xj) ∈ E

Dans un graphe non pondéré, on convient que wij ∈ 0; 1.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29

Page 12: Compte-rendu bibliographique sur les réseaux biologiques

Sommaire

1 Inférence de graphesInférence non superviséeInférence supervisée

2 Analyse de graphes

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 5 / 29

Page 13: Compte-rendu bibliographique sur les réseaux biologiques

Sommaire

1 Inférence de graphesInférence non superviséeInférence supervisée

2 Analyse de graphes

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 6 / 29

Page 14: Compte-rendu bibliographique sur les réseaux biologiques

Inférence non supervisée

Les seules données connues sont les données d’expression des gènes.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 7 / 29

Page 15: Compte-rendu bibliographique sur les réseaux biologiques

Référence

Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach toinferring large-scale gene association networks. Bioinformatics, 21(6), pp754-764.Brève description : Utilisation de modèles graphiques Gaussien (réseauxbayésiens) pour l’inférence d’un graphe à partir de données d’expressionde gènes.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 8 / 29

Page 16: Compte-rendu bibliographique sur les réseaux biologiques

Qu’est-ce que le modèle graphique Gaussien ?

Données : X de taille N (les individus) par G (les expressions de Ggènes).

Hypothèse : X suit une loi N(µ,Σ).Pourquoi σij peut être élevé ? :

il existe une interaction directe entre les gènes i et j ;

⇒ L’utilisation des corrélations simples n’est pas une méthode valide pourreconstruire le graphe d’interactions.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29

Page 17: Compte-rendu bibliographique sur les réseaux biologiques

Qu’est-ce que le modèle graphique Gaussien ?

Données : X de taille N (les individus) par G (les expressions de Ggènes).Hypothèse : X suit une loi N(µ,Σ).

Pourquoi σij peut être élevé ? :

il existe une interaction directe entre les gènes i et j ;

⇒ L’utilisation des corrélations simples n’est pas une méthode valide pourreconstruire le graphe d’interactions.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29

Page 18: Compte-rendu bibliographique sur les réseaux biologiques

Qu’est-ce que le modèle graphique Gaussien ?

Données : X de taille N (les individus) par G (les expressions de Ggènes).Hypothèse : X suit une loi N(µ,Σ).Pourquoi σij peut être élevé ? :

il existe une interaction directe entre les gènes i et j ;

il existe une interaction indirecte entre les gènes i et j ;

les gènes i et j sont régulés par un même gène.

⇒ L’utilisation des corrélations simples n’est pas une méthode valide pourreconstruire le graphe d’interactions.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29

Page 19: Compte-rendu bibliographique sur les réseaux biologiques

Qu’est-ce que le modèle graphique Gaussien ?

Données : X de taille N (les individus) par G (les expressions de Ggènes).Hypothèse : X suit une loi N(µ,Σ).Pourquoi σij peut être élevé ? :

il existe une interaction directe entre les gènes i et j ;

il existe une interaction indirecte entre les gènes i et j ;

les gènes i et j sont régulés par un même gène.

⇒ L’utilisation des corrélations simples n’est pas une méthode valide pourreconstruire le graphe d’interactions.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29

Page 20: Compte-rendu bibliographique sur les réseaux biologiques

Corrélations partielles

On introduit les corrélations partielles

πij := Cor(X i ,X j |X−i,j)

= Cor(εi , εj)

où εi et εj sont les résidus de la régression linéaire de X i et X j en X−i,j.[Edwards, 1995] montre que

πij =−ωij√ωiiωjj

avec (ωij) = Ω = Σ−1.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29

Page 21: Compte-rendu bibliographique sur les réseaux biologiques

Corrélations partielles

On introduit les corrélations partielles

πij := Cor(X i ,X j |X−i,j)

= Cor(εi , εj)

où εi et εj sont les résidus de la régression linéaire de X i et X j en X−i,j.

[Edwards, 1995] montre que

πij =−ωij√ωiiωjj

avec (ωij) = Ω = Σ−1.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29

Page 22: Compte-rendu bibliographique sur les réseaux biologiques

Corrélations partielles

On introduit les corrélations partielles

πij := Cor(X i ,X j |X−i,j)

= Cor(εi , εj)

où εi et εj sont les résidus de la régression linéaire de X i et X j en X−i,j.[Edwards, 1995] montre que

πij =−ωij√ωiiωjj

avec (ωij) = Ω = Σ−1.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29

Page 23: Compte-rendu bibliographique sur les réseaux biologiques

Apports de l’article [Schäfer and Strimmer, 2005]

Utilisation de GGM pour n petit : approche par bootstrap1 Utilisation du pseudo-inverse de Σn pour estimer Ω ;2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour

estimater Ω ;3 Pour chaque échantillon bootstrap, calcul de Ωb qui est le pseudo

inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimationde Ω par moyenne des Ωb .

Proposition d’un test de significativité des corrélations partiellessous l’hypothèse que les distributions partielles suivent une loi demélange :

L(π) ∼ η0f0(π, κ) + (1 − η0)fA (π)

avec f0 connue (loi sous l’hypothèse de nullité de π), η0 et κ estimés àpartir des données (par EM ou ML maximisation), fA , loi uniforme sur[−1, 1]⇒ P(arrête non nulle) =

(1−η0)fA (π)η0f0(π,κ)+(1−η0)fA (π)

.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 11 / 29

Page 24: Compte-rendu bibliographique sur les réseaux biologiques

Apports de l’article [Schäfer and Strimmer, 2005]

Utilisation de GGM pour n petit : approche par bootstrap1 Utilisation du pseudo-inverse de Σn pour estimer Ω ;2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour

estimater Ω ;3 Pour chaque échantillon bootstrap, calcul de Ωb qui est le pseudo

inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimationde Ω par moyenne des Ωb .

Proposition d’un test de significativité des corrélations partiellessous l’hypothèse que les distributions partielles suivent une loi demélange :

L(π) ∼ η0f0(π, κ) + (1 − η0)fA (π)

avec f0 connue (loi sous l’hypothèse de nullité de π), η0 et κ estimés àpartir des données (par EM ou ML maximisation), fA , loi uniforme sur[−1, 1]⇒ P(arrête non nulle) =

(1−η0)fA (π)η0f0(π,κ)+(1−η0)fA (π)

.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 11 / 29

Page 25: Compte-rendu bibliographique sur les réseaux biologiques

Simulations

Inférence d’un grand graphe d’association de gènes connu relatif à desdonnées d’expression pour le cancer du sein dans le but de valider lesapproches :

L’approche 1 est à utiliser quand N >> G car elle manque depuissance sinon. Cependant, si N est grand, les deux autresapproches sont aussi performantes ;

L’approche 2 est meilleure lorsque N < G : bonne puissance dans lazone où N est petit et moins coûteux que l’approche 3 en temps decalcul ;

L’approche 3 est à utiliser dans les situations critiques (N << G).

L’article conclut par une analyse descriptive d’un sous-réseau d’environ100 gènes autour d’un gène connu pour son implication dans le cancer dusein (description exhaustive).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 12 / 29

Page 26: Compte-rendu bibliographique sur les réseaux biologiques

Simulations

Inférence d’un grand graphe d’association de gènes connu relatif à desdonnées d’expression pour le cancer du sein dans le but de valider lesapproches :

L’approche 1 est à utiliser quand N >> G car elle manque depuissance sinon. Cependant, si N est grand, les deux autresapproches sont aussi performantes ;

L’approche 2 est meilleure lorsque N < G : bonne puissance dans lazone où N est petit et moins coûteux que l’approche 3 en temps decalcul ;

L’approche 3 est à utiliser dans les situations critiques (N << G).

L’article conclut par une analyse descriptive d’un sous-réseau d’environ100 gènes autour d’un gène connu pour son implication dans le cancer dusein (description exhaustive).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 12 / 29

Page 27: Compte-rendu bibliographique sur les réseaux biologiques

Inférence supervisée

Une partie du réseau est connue ainsi que des donnéessupplémentaires de natures diverses

Une approximation du réseau est connue ainsi que des donnéessupplémentaires de natures diverses

réseaux d’interactions de protéines et réseaux métaboliques

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 13 / 29

Page 28: Compte-rendu bibliographique sur les réseaux biologiques

Référence

Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervisedenzyme network inference from the integration of genomic data andchemical information. Bioinformatics, 21(Supp. 1), i468-i477.

Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration ofmultiple biological data for supervised network inference.Bioinformatics, 21(10), 2488-2495.

Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.(2007) Inferring biological networks with output kernel trees. BMCBioinformatics, 8(Supp. 2).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 14 / 29

Page 29: Compte-rendu bibliographique sur les réseaux biologiques

[Yamanishi et al., 2005]

Données disponibles :

une partie du réseau : le réseau est connu partiellement et onsouhaite trouver des liens supplémentaires potentiels ;

des données supplémentaires : on dispose d’informationssupplémentaires (données d’expression de gènes, localisation, profilphylogénétique . . . ).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 15 / 29

Page 30: Compte-rendu bibliographique sur les réseaux biologiques

[Yamanishi et al., 2005]

Données disponibles :

une partie du réseau : le réseau est connu partiellement et onsouhaite trouver des liens supplémentaires potentiels ;

des données supplémentaires : on dispose d’informationssupplémentaires (données d’expression de gènes, localisation, profilphylogénétique . . . ).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 15 / 29

Page 31: Compte-rendu bibliographique sur les réseaux biologiques

Noyau de la chaleur

La méthode est basée sur le calcul, pour la partie du réseau connu, dunoyau de la chaleur :

Pour un graphe donné, le Laplacien est la matrice

L =

−wij si i , jdi =

∑k,i wik si i = j

Le noyau de la chaleur est la matrice K = e−βL .

Exemple : Pour le graphe de co-apparition des Misérables, le noyau de lachaleur vu depuis Jean Valjean

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29

Page 32: Compte-rendu bibliographique sur les réseaux biologiques

Noyau de la chaleur

La méthode est basée sur le calcul, pour la partie du réseau connu, dunoyau de la chaleur :

Pour un graphe donné, le Laplacien est la matrice

L =

−wij si i , jdi =

∑k,i wik si i = j

Le noyau de la chaleur est la matrice K = e−βL .Exemple : Pour le graphe de co-apparition des Misérables, le noyau de lachaleur vu depuis Jean Valjean

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29

Page 33: Compte-rendu bibliographique sur les réseaux biologiques

Noyau de la chaleur

La méthode est basée sur le calcul, pour la partie du réseau connu, dunoyau de la chaleur :

Pour un graphe donné, le Laplacien est la matrice

L =

−wij si i , jdi =

∑k,i wik si i = j

Le noyau de la chaleur est la matrice K = e−βL .Exemple : Pour le graphe de co-apparition des Misérables, le noyau de lachaleur vu depuis Jean Valjean

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29

Page 34: Compte-rendu bibliographique sur les réseaux biologiques

Noyau de la chaleur

La méthode est basée sur le calcul, pour la partie du réseau connu, dunoyau de la chaleur :

Pour un graphe donné, le Laplacien est la matrice

L =

−wij si i , jdi =

∑k,i wik si i = j

Le noyau de la chaleur est la matrice K = e−βL .Exemple : Pour le graphe de co-apparition des Misérables, le noyau de lachaleur vu depuis Jean Valjean

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29

Page 35: Compte-rendu bibliographique sur les réseaux biologiques

Approches proposées

Approche directe (on n’utilise que le réseau connu) : on place unlien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.

Approche supervisée :1 On calcule le noyau de la chaleur pour le réseau connu, K ;

2 On calcule un noyau pour les autres variables (pour les variablesnumériques, un noyau Gaussien : G(x, y) = e−γ‖x−y‖2 , par exemple :K1, . . . ,Kp ;

3 On en déduit un noyau global pour les informations supplémentaires :

Kp =

p∑k=1

αk Kk

où les αk sont des poids à déterminer.4 Kernel CCA : Les deux noyaux, K et Kp permettent de définir deux

plongements dans des espaces euclidiens de grande dimension. Oneffectue une analyse canonique à partir de ces deux espaces et onprojette le réseau dans l’espace défini par les premières composantesde l’analyse canonique. Les liens supplémentaires sont définis parproximités dans cet espace.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29

Page 36: Compte-rendu bibliographique sur les réseaux biologiques

Approches proposées

Approche directe (on n’utilise que le réseau connu) : on place unlien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.Approche supervisée :

1 On calcule le noyau de la chaleur pour le réseau connu, K ;

2 On calcule un noyau pour les autres variables (pour les variablesnumériques, un noyau Gaussien : G(x, y) = e−γ‖x−y‖2 , par exemple :K1, . . . ,Kp ;

3 On en déduit un noyau global pour les informations supplémentaires :

Kp =

p∑k=1

αk Kk

où les αk sont des poids à déterminer.4 Kernel CCA : Les deux noyaux, K et Kp permettent de définir deux

plongements dans des espaces euclidiens de grande dimension. Oneffectue une analyse canonique à partir de ces deux espaces et onprojette le réseau dans l’espace défini par les premières composantesde l’analyse canonique. Les liens supplémentaires sont définis parproximités dans cet espace.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29

Page 37: Compte-rendu bibliographique sur les réseaux biologiques

Approches proposées

Approche directe (on n’utilise que le réseau connu) : on place unlien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.Approche supervisée :

1 On calcule le noyau de la chaleur pour le réseau connu, K ;2 On calcule un noyau pour les autres variables (pour les variables

numériques, un noyau Gaussien : G(x, y) = e−γ‖x−y‖2 , par exemple :K1, . . . ,Kp ;

3 On en déduit un noyau global pour les informations supplémentaires :

Kp =

p∑k=1

αk Kk

où les αk sont des poids à déterminer.

4 Kernel CCA : Les deux noyaux, K et Kp permettent de définir deuxplongements dans des espaces euclidiens de grande dimension. Oneffectue une analyse canonique à partir de ces deux espaces et onprojette le réseau dans l’espace défini par les premières composantesde l’analyse canonique. Les liens supplémentaires sont définis parproximités dans cet espace.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29

Page 38: Compte-rendu bibliographique sur les réseaux biologiques

Approches proposées

Approche directe (on n’utilise que le réseau connu) : on place unlien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.Approche supervisée :

1 On calcule le noyau de la chaleur pour le réseau connu, K ;2 On calcule un noyau pour les autres variables (pour les variables

numériques, un noyau Gaussien : G(x, y) = e−γ‖x−y‖2 , par exemple :K1, . . . ,Kp ;

3 On en déduit un noyau global pour les informations supplémentaires :

Kp =

p∑k=1

αk Kk

où les αk sont des poids à déterminer.4 Kernel CCA : Les deux noyaux, K et Kp permettent de définir deux

plongements dans des espaces euclidiens de grande dimension. Oneffectue une analyse canonique à partir de ces deux espaces et onprojette le réseau dans l’espace défini par les premières composantesde l’analyse canonique. Les liens supplémentaires sont définis parproximités dans cet espace.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29

Page 39: Compte-rendu bibliographique sur les réseaux biologiques

Raffinements

Choix des poids : αk = AUC −0, 5 pour une prédiction à partir dunoyau Kp seul ;

Alternative à KCCA : minimisation d’une fonctionnelle qui a pour butde placer les sommets déjà connectés proches les uns des autresdans l’espace image ;Contraintes chimiques : des contraintes chimiques sont incorporéesde deux manières :

un des Kk est un réseau de réaction chimiquement possible ;après l’apprentissage, les réactions chimiquement impossibles sontsupprimées.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29

Page 40: Compte-rendu bibliographique sur les réseaux biologiques

Raffinements

Choix des poids : αk = AUC −0, 5 pour une prédiction à partir dunoyau Kp seul ;

Alternative à KCCA : minimisation d’une fonctionnelle qui a pour butde placer les sommets déjà connectés proches les uns des autresdans l’espace image ;

Contraintes chimiques : des contraintes chimiques sont incorporéesde deux manières :

un des Kk est un réseau de réaction chimiquement possible ;après l’apprentissage, les réactions chimiquement impossibles sontsupprimées.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29

Page 41: Compte-rendu bibliographique sur les réseaux biologiques

Raffinements

Choix des poids : αk = AUC −0, 5 pour une prédiction à partir dunoyau Kp seul ;

Alternative à KCCA : minimisation d’une fonctionnelle qui a pour butde placer les sommets déjà connectés proches les uns des autresdans l’espace image ;Contraintes chimiques : des contraintes chimiques sont incorporéesde deux manières :

un des Kk est un réseau de réaction chimiquement possible ;après l’apprentissage, les réactions chimiquement impossibles sontsupprimées.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29

Page 42: Compte-rendu bibliographique sur les réseaux biologiques

Bref résumé des conclusions expérimentales

Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae :Protocole expérimental : Supression des liens correspondant à 10 %des sommets (puis validation croisée) ; Calcul des taux de bonnesprédictions sur les arêtes reliées à ces sommets.

L’approche pondérée et intégrée (utilisant toutes les informationsdisponibles) obtient de meilleurs résultats.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 19 / 29

Page 43: Compte-rendu bibliographique sur les réseaux biologiques

Bref résumé des conclusions expérimentales

Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae :Protocole expérimental : Supression des liens correspondant à 10 %des sommets (puis validation croisée) ; Calcul des taux de bonnesprédictions sur les arêtes reliées à ces sommets.L’approche pondérée et intégrée (utilisant toutes les informationsdisponibles) obtient de meilleurs résultats.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 19 / 29

Page 44: Compte-rendu bibliographique sur les réseaux biologiques

[Kato et al., 2005]

Dans cet article, cas particulier où on a, à disposition,

une partie du réseau : le réseau est connu parfaitement pour nenzymes ou protéines et totalement inconnu pour m nouvellesenzymes ou protéines : on souhaite trouver les liens entre nouveauxet anciens éléments et “intra” nouveaux éléments ;

des données supplémentaires : on dispose d’informationssupplémentaires (données d’expression de gènes, localisation, profilphylogénétique . . . ).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 20 / 29

Page 45: Compte-rendu bibliographique sur les réseaux biologiques

[Kato et al., 2005]

Dans cet article, cas particulier où on a, à disposition,

une partie du réseau : le réseau est connu parfaitement pour nenzymes ou protéines et totalement inconnu pour m nouvellesenzymes ou protéines : on souhaite trouver les liens entre nouveauxet anciens éléments et “intra” nouveaux éléments ;

des données supplémentaires : on dispose d’informationssupplémentaires (données d’expression de gènes, localisation, profilphylogénétique . . . ).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 20 / 29

Page 46: Compte-rendu bibliographique sur les réseaux biologiques

Plongement

Les données sont plongées dans un espace image dont on connait lamatrice des produits scalaires (noyau) :

Pour le réseau,

Q =

(Kc Qci

QTci Qii

)où Kc est le noyau de la chaleur sur la partie du réseau qui estconnue et Qci , Qii sont les produits scalaires à estimer.

Pour les données supplémentaires, on utilise des noyaux similairesà l’approche précédentes. Dans le cas d’un jeu de données, on noteP la matrice des produits scalaires associée dans l’espace image.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 21 / 29

Page 47: Compte-rendu bibliographique sur les réseaux biologiques

Plongement

Les données sont plongées dans un espace image dont on connait lamatrice des produits scalaires (noyau) :

Pour le réseau,

Q =

(Kc Qci

QTci Qii

)où Kc est le noyau de la chaleur sur la partie du réseau qui estconnue et Qci , Qii sont les produits scalaires à estimer.

Pour les données supplémentaires, on utilise des noyaux similairesà l’approche précédentes. Dans le cas d’un jeu de données, on noteP la matrice des produits scalaires associée dans l’espace image.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 21 / 29

Page 48: Compte-rendu bibliographique sur les réseaux biologiques

Modélisation

x = (c, i) est tel que

p(x) ∼ N(0,P)

q(x) ∼ N(0,Q)

On estime la loi conjointe q(x) par

q(c, i) = p(i|c)q(c)

et donc

Qci = KcP−1cc Pci Qii = Pii − PT

ciP−1cc Pci + PT

ciP−1cc KcP−1

cc Pci

Ceci correspond à la minimisation de la distance de Kullback-Leiblerentre p et q.Q est ensuite seuillée pour obtenir le réseau.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29

Page 49: Compte-rendu bibliographique sur les réseaux biologiques

Modélisation

x = (c, i) est tel que

p(x) ∼ N(0,P)

q(x) ∼ N(0,Q)

On estime la loi conjointe q(x) par

q(c, i) = p(i|c)q(c)

et donc

Qci = KcP−1cc Pci Qii = Pii − PT

ciP−1cc Pci + PT

ciP−1cc KcP−1

cc Pci

Ceci correspond à la minimisation de la distance de Kullback-Leiblerentre p et q.Q est ensuite seuillée pour obtenir le réseau.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29

Page 50: Compte-rendu bibliographique sur les réseaux biologiques

Modélisation

x = (c, i) est tel que

p(x) ∼ N(0,P)

q(x) ∼ N(0,Q)

On estime la loi conjointe q(x) par

q(c, i) = p(i|c)q(c)

et donc

Qci = KcP−1cc Pci Qii = Pii − PT

ciP−1cc Pci + PT

ciP−1cc KcP−1

cc Pci

Ceci correspond à la minimisation de la distance de Kullback-Leiblerentre p et q.Q est ensuite seuillée pour obtenir le réseau.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29

Page 51: Compte-rendu bibliographique sur les réseaux biologiques

Modélisation

x = (c, i) est tel que

p(x) ∼ N(0,P)

q(x) ∼ N(0,Q)

On estime la loi conjointe q(x) par

q(c, i) = p(i|c)q(c)

et donc

Qci = KcP−1cc Pci Qii = Pii − PT

ciP−1cc Pci + PT

ciP−1cc KcP−1

cc Pci

Ceci correspond à la minimisation de la distance de Kullback-Leiblerentre p et q.

Q est ensuite seuillée pour obtenir le réseau.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29

Page 52: Compte-rendu bibliographique sur les réseaux biologiques

Modélisation

x = (c, i) est tel que

p(x) ∼ N(0,P)

q(x) ∼ N(0,Q)

On estime la loi conjointe q(x) par

q(c, i) = p(i|c)q(c)

et donc

Qci = KcP−1cc Pci Qii = Pii − PT

ciP−1cc Pci + PT

ciP−1cc KcP−1

cc Pci

Ceci correspond à la minimisation de la distance de Kullback-Leiblerentre p et q.Q est ensuite seuillée pour obtenir le réseau.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29

Page 53: Compte-rendu bibliographique sur les réseaux biologiques

Mise en œuvre pratique

Amélioration proposée dans le cas d’informations supplémentairesmultiples : utilisation d’un noyau P =

∑k αk Pk et algorithme EM pour

l’apprentissage des (αk ).

Expérimentation sur le réseau de protéines et réseau de protéines de lalevure Saccharomyces cerevisiae. Les résultats du seuillage de Qaméliore les résultats obtenus par KCCA à la fois pour les arêtes entreanciens et nouveaux élements mais aussi entre les nouveaux élémentseux-mêmes (encore plus, d’ailleurs).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 23 / 29

Page 54: Compte-rendu bibliographique sur les réseaux biologiques

Mise en œuvre pratique

Amélioration proposée dans le cas d’informations supplémentairesmultiples : utilisation d’un noyau P =

∑k αk Pk et algorithme EM pour

l’apprentissage des (αk ).Expérimentation sur le réseau de protéines et réseau de protéines de lalevure Saccharomyces cerevisiae. Les résultats du seuillage de Qaméliore les résultats obtenus par KCCA à la fois pour les arêtes entreanciens et nouveaux élements mais aussi entre les nouveaux élémentseux-mêmes (encore plus, d’ailleurs).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 23 / 29

Page 55: Compte-rendu bibliographique sur les réseaux biologiques

[Geurts et al., 2007]

Idée principale : Apprendre le noyau de la chaleur du réseaupartiellement connu, à partir de données d’entrées qui peuvent être :

une partie du réseau

des données supplémentaires comme l’expression des gènes, lalocalisation des éléments, ...

Une fois ce noyau K appris, on procède par seuillage pour obtenir unréseau.La méthode utilise une approche à noyau de l’algorithme CART assortid’un bagging.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29

Page 56: Compte-rendu bibliographique sur les réseaux biologiques

[Geurts et al., 2007]

Idée principale : Apprendre le noyau de la chaleur du réseaupartiellement connu, à partir de données d’entrées qui peuvent être :

une partie du réseau

des données supplémentaires comme l’expression des gènes, lalocalisation des éléments, ...

Une fois ce noyau K appris, on procède par seuillage pour obtenir unréseau.

La méthode utilise une approche à noyau de l’algorithme CART assortid’un bagging.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29

Page 57: Compte-rendu bibliographique sur les réseaux biologiques

[Geurts et al., 2007]

Idée principale : Apprendre le noyau de la chaleur du réseaupartiellement connu, à partir de données d’entrées qui peuvent être :

une partie du réseau

des données supplémentaires comme l’expression des gènes, lalocalisation des éléments, ...

Une fois ce noyau K appris, on procède par seuillage pour obtenir unréseau.La méthode utilise une approche à noyau de l’algorithme CART assortid’un bagging.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29

Page 58: Compte-rendu bibliographique sur les réseaux biologiques

Présentation de l’approche “Output Kernel Tree”

On dispose des données suivantes :

les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ;

les entrées, (x(vi)), numériques, qui correspondent aux “donnéessupplémentaires” ;

le noyau de la chaleur k du réseau connu qui peut être vu commeune approximation du noyau de la chaleur K du réseau réel.

On utilise un algorithme CART pour apprendre la fonction

x(vi)→ φ(vi)

où φ(vi) est l’image de vi dans le plongement associé au noyau K . Lecritère de division est calculé par l’utilisation des produits scalaires :

〈φ(vi), φ(vj)〉 = k(i, j).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 25 / 29

Page 59: Compte-rendu bibliographique sur les réseaux biologiques

Présentation de l’approche “Output Kernel Tree”

On dispose des données suivantes :

les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ;

les entrées, (x(vi)), numériques, qui correspondent aux “donnéessupplémentaires” ;

le noyau de la chaleur k du réseau connu qui peut être vu commeune approximation du noyau de la chaleur K du réseau réel.

On utilise un algorithme CART pour apprendre la fonction

x(vi)→ φ(vi)

où φ(vi) est l’image de vi dans le plongement associé au noyau K . Lecritère de division est calculé par l’utilisation des produits scalaires :

〈φ(vi), φ(vj)〉 = k(i, j).

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 25 / 29

Page 60: Compte-rendu bibliographique sur les réseaux biologiques

Estimation de K

Φ, fonction de plongement associée à K , est estimée pour chaque feuillepar :

Φ(F) =1

|v ∈ F |

∑v∈F

φ(v)

(moyenne des valeurs du réseau initial par le plongement)

K est ensuite estimée par

K(vi , vj) =1

|v ∈ F(vi)||v′ ∈ F(vj)|

∑v∈F(vi), v′∈F(vj)

k(v , v′)

Ensemble d’arbres : Une procédure combinant (moyenne) un ensembled’arbres obtenus par randomisation des divisions de nœuds (non décrite)est finalement utilisée.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29

Page 61: Compte-rendu bibliographique sur les réseaux biologiques

Estimation de K

Φ, fonction de plongement associée à K , est estimée pour chaque feuillepar :

Φ(F) =1

|v ∈ F |

∑v∈F

φ(v)

(moyenne des valeurs du réseau initial par le plongement)K est ensuite estimée par

K(vi , vj) =1

|v ∈ F(vi)||v′ ∈ F(vj)|

∑v∈F(vi), v′∈F(vj)

k(v , v′)

Ensemble d’arbres : Une procédure combinant (moyenne) un ensembled’arbres obtenus par randomisation des divisions de nœuds (non décrite)est finalement utilisée.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29

Page 62: Compte-rendu bibliographique sur les réseaux biologiques

Estimation de K

Φ, fonction de plongement associée à K , est estimée pour chaque feuillepar :

Φ(F) =1

|v ∈ F |

∑v∈F

φ(v)

(moyenne des valeurs du réseau initial par le plongement)K est ensuite estimée par

K(vi , vj) =1

|v ∈ F(vi)||v′ ∈ F(vj)|

∑v∈F(vi), v′∈F(vj)

k(v , v′)

Ensemble d’arbres : Une procédure combinant (moyenne) un ensembled’arbres obtenus par randomisation des divisions de nœuds (non décrite)est finalement utilisée.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29

Page 63: Compte-rendu bibliographique sur les réseaux biologiques

Expériences

Même jeu de données, même approche de validation croisée : lesrésultats sont améliorés dans le cas de

principalement le réseau métabolique (c’est moins vrai pour le réseaud’intéractions de protéines) ;

lorsque peu de types de données différentes sont disponibles.

Avantage supplémentaire : L’utilisation d’un arbre unique permetd’obtenir, en sus, une classification des éléments. Cette classification,représentée sur le graphe d’intéractions de protéines semble pertinente.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 27 / 29

Page 64: Compte-rendu bibliographique sur les réseaux biologiques

Expériences

Même jeu de données, même approche de validation croisée : lesrésultats sont améliorés dans le cas de

principalement le réseau métabolique (c’est moins vrai pour le réseaud’intéractions de protéines) ;

lorsque peu de types de données différentes sont disponibles.

Avantage supplémentaire : L’utilisation d’un arbre unique permetd’obtenir, en sus, une classification des éléments. Cette classification,représentée sur le graphe d’intéractions de protéines semble pertinente.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 27 / 29

Page 65: Compte-rendu bibliographique sur les réseaux biologiques

Sommaire

1 Inférence de graphesInférence non superviséeInférence supervisée

2 Analyse de graphes

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 28 / 29

Page 66: Compte-rendu bibliographique sur les réseaux biologiques

À SUIVRE ...

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 29 / 29

Page 67: Compte-rendu bibliographique sur les réseaux biologiques

Edwards, D. (1995).Introduction to Graphical Modelling.Springer, New York.

Geurts, P., Touleimat, N., Dutreix, M., and d’Alché Buc, F. (2007).Inferring biological networks with output kernel trees.BMC Bioinformatics, 8(Supp. 2).

Kato, T., Tsuda, K., and Asai, K. (2005).Selective integration of multiple biological data for supervised network inference.Bioinformatics, 21(10) :2488–2495.

Schäfer, J. and Strimmer, K. (2005).An empirical bayes approach to inferring large-scale gene association networks.Bioinformatics, 21(6) :754–764.

Yamanishi, Y., Vert, J., and Kanehisa, M. (2005).Supervised enzyme network inference from the integration of genomic data and chemical information.Bioinformatics, 21(Supp. 1) :i468–i477.

BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 29 / 29