Download - Définition et analyse de graphes d’interactions de gènes pour la qualité de la viande de porc ; relations avec le PH

Définition et analyse de graphesd’interactions de gènes pour la qualité de

la viande de porc ; relations avec le PH

Nathalie Villa-Vialaneix

http://www.nathalievilla.org

IUT de Carcassonne (UPVD)

& Institut de Mathématiques de Toulouse

Groupe de travail BioPuces, INRA de Castanet

14 Janvier 2011

1 / 27Nathalie Villa-Vialaneix

N

Présentation générale

1 Les données

2 Principe général de construction d’un graphed’interactions

3 Analyse du graphe d’interactions des gènes régulés par uneQTL

Analyse descriptiveClassification des sommets

4 Analyse de la corrélation avec le PH à l’aide d’outils destatistique spatiale


N

Les données

Sommaire

1 Les données






N

Les données

Production d’animaux F2 avec des fac-teurs de variation génétique

F0 : 16 ♂ (Piétrain) × 28 ♀ (Synthétique)

F1 : 17 ♂ × 62 ♀

F2 : 1200 animaux structurés par lignée de père

Prélèvement de tissus(dont longissimus dorsi)

Mesures phénotypiques (30)(force de cisaillement, PH ...)

Données retenues : Une famille de 57 individus F2 (plus fortevariabilité pour force de cisaillement et PH) ; transcri. 2 464 gènes.


N

Les données

Premières extractions des données

1 Les données ont été normalisées et les valeurs manquantescomplétées ;

2 Une nomenclature par défaut pour les gènes (non validéeprécisément) a été définie sur la base de plusieurs typesd’annotations, en plus de la référence au spot ;

3 Les gènes régulés par un eQTL ont été extraits : 272 gènes sontréputés régulés par un eQTL ;

4 Les gènes différentiellement exprimés pour le PH ont été extraits: 23 gènes sont réuputés différentiellement exprimés pour le PH.

Remarque : 2 gènes différentiellement exprimés pour le PH sontrégulés par un eQTL ; il s’agit de D04-D07 (BX671434) et deN01-C04 (ZRANB1).


N

Principe général de construction d’un graphe d’interactions

Sommaire

1 Les données






N


Des gènes aux réseaux de gènes

Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.

Que modélise un réseau de gènes ?

Sommets : GènesArêtes : Corrélation forte dansl’expression des deux gènes


N


Des gènes aux réseaux de gènes

Intérêt : Détecter et analyser les réseaux de gènes impliqués dansune ou plusieurs fonctions biologiques.Que modélise un réseau de gènes ?

Sommets : GènesArêtes : Corrélation forte dansl’expression des deux gènes


N


Corrélations, corrélations partielles

Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.

Solution courante : Modèle graphique Gaussien

H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;

Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;

Sous H, πij =−wij√

wiiwjjavec Σ−1 = (wij)i,j .

Problème important : Estimation et inversion de Σ !


N


Corrélations, corrélations partielles

Problème : Le calcul direct des corrélations entre deux gènespeut être perturbé par des relations communes indirectes qui nesont pas révélatrices d’un phénomène biologique.Solution courante : Modèle graphique Gaussien

H : La matrice d’expression des gènes, X , est issue d’unedistribution N(µ,Σ) ;

Quantité d’intérêt : Les corrélations partielles, i.e.,πij = Cor(X i ,X j |(Xk )k,i,j) ;

Sous H, πij =−wij√

wiiwjjavec Σ−1 = (wij)i,j .

Problème important : Estimation et inversion de Σ !


N


Estimation des corrélations partielles[Schäfer and Strimmer, 2005]

Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter

1 Générer un échantillon bootstrap b∗ dans les données initiales ;

2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;

3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;

Estimer Π par la moyenne des Πb∗ .

Combien d’observations pour estimer correctement Π ?


N


Estimation des corrélations partielles[Schäfer and Strimmer, 2005]

Estimation des corrélations partielles par boostrap (package R“GeneNet”) : Répéter

1 Générer un échantillon bootstrap b∗ dans les données initiales ;

2 Déterminer la variance empirique sur l’échantillon boostrap, Σb∗ ;

3 Calculer le pseudo-inverse de Σb∗ , Wb∗ puis Πb∗ ;

Estimer Π par la moyenne des Πb∗ .Combien d’observations pour estimer correctement Π ?


N


Mise en œuvre de la méthode

La méthode a été mise en œuvre pour définir trois graphes :graphe d’interactions des gènes régulés par un eQTL (272sommets) ;

graphe d’interactions des gènes différentiellement exprimés pour lePH (23 sommets) ;

graphe d’interactions des gènes régulés par un eQTL oudifférentiellement exprimés pour le PH (293 sommets).

Une procédure de bootstrap (4 000 répétitions d’échantillonsbootstrap de 20 cochons) a été programmée pour estimer lescorrélations partielles (fonction ggm.estimate du packageGeneNet).Un graphe d’interactions est construit dans lequel les arêtes sontles corrélations partielles significatives (test de significativité dela fonction ggm.test.edges, basé sur une approche bayésienne).


N






Une procédure de bootstrap (4 000 répétitions d’échantillonsbootstrap de 20 cochons) a été programmée pour estimer lescorrélations partielles (fonction ggm.estimate du packageGeneNet).

Un graphe d’interactions est construit dans lequel les arêtes sontles corrélations partielles significatives (test de significativité dela fonction ggm.test.edges, basé sur une approche bayésienne).


N






Une procédure de bootstrap (4 000 répétitions d’échantillonsbootstrap de 20 cochons) a été programmée pour estimer lescorrélations partielles (fonction ggm.estimate du packageGeneNet).Un graphe d’interactions est construit dans lequel les arêtes sontles corrélations partielles significatives (test de significativité dela fonction ggm.test.edges, basé sur une approche bayésienne).


N

Analyse du graphe d’interactions des gènes régulés par un eQTL

Sommaire

1 Les données






N


Description basique du graphe

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●

272 sommets (connexe) ; Densité : 6,4 % ; Transitivité : 25,4 %12 / 27

Nathalie Villa-VialaneixN


Analyse des degrés des sommets

Degré d’un sommet : Nombre d’arêtes afférentes au sommet.

Histogramme des degrés

Degrés

Fre

quen

cy

5 10 15 20 25 30

010

2030

40

Gènes de plus forts degrés : 21 gènes identifiés

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●

PCBP2_MOUSE

RPL7L1

N4BP2TRIAP1 SLA−1TPM3

SLC39A14

SSR4

BX921641

BX672573AW359912

GPI

BX915888

BMPR2UTP23SUZ12

FTH1MGP

DGKI

PRDX4BX670979


N


Analyse des degrés des sommets

Degré d’un sommet : Nombre d’arêtes afférentes au sommet.

Gènes de plus forts degrés : 21 gènes identifiés

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●

PCBP2_MOUSE

RPL7L1

N4BP2TRIAP1 SLA−1TPM3

SLC39A14

SSR4

BX921641

BX672573AW359912

GPI

BX915888

BMPR2UTP23SUZ12

FTH1MGP

DGKI

PRDX4BX670979


N


Analyse des indices de centralité

Centralité d’un sommet : Nombre de plus courts chemins entredeux sommets du graphe passant par le sommet d’intérêt⇒Mesure de l’importance du sommet dans la connectivité dugraphe.

Indices de centralité des degrés

●●

●●

●●●●●●●●●●●●●●●●●●

●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

0 50 100 150 200 250

010

020

030

040

050

0

Rang

Indi

ce d

e ce

ntra

lité

Gènes de plus fortes centralités : 25 gènes identifiés

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●

BX922566BX676386

CCAR1

BX676495

FAM151B

TRIAP1

BX922608

SLC39A14

SSR4

CLTABX921641

BX922995

GPI

BI359863

SUZ12

FTH1MGP

BX914936

SON

UBE2H

FADD

ROCK2

PRDX4RNASEK

BX924180


N


Analyse des indices de centralité

Gènes de plus fortes centralités : 25 gènes identifiés

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●

BX922566BX676386

CCAR1

BX676495

FAM151B

TRIAP1

BX922608

SLC39A14

SSR4

CLTABX921641

BX922995

GPI

BI359863

SUZ12

FTH1MGP

BX914936

SON

UBE2H

FADD

ROCK2

PRDX4RNASEK

BX924180


N


Comparaison entre les deux listes

8 gènes sont en commun dans les deux listes :

BX921641 ; FTH1 ; TRIAP1 ; SLC9A14 ; GPI ; SUZ12 ; MGP ;PRDX4

Reconnaissez-vous des amis ?


N


Principe de la classification de sommets

But : Faire des groupes de sommets fortement connectés entreeux et faiblement connectés aux autres.

Méthode utilisée : Suite au travail d’Adrien, optimisation de lamodularité par un algorithme de recuit simulé (comme dans[Villa et al., 2009]) car :

la modularité est une mesure de la densité des classes qui tientcompte du degré des sommets : il est moins exceptionnel d’êtrelié à un hub qu’à un sommet de faible degré donc le coût de“couper” une arête connecté à un hub doit être plus faible.

l’algorithme de recuit simulé est très facile à mettre en œuvremême si il peut être long. Il est bien adapté à des graphes de cettetaille.


N


Principe de la classification de sommets

But : Faire des groupes de sommets fortement connectés entreeux et faiblement connectés aux autres.Méthode utilisée : Suite au travail d’Adrien, optimisation de lamodularité par un algorithme de recuit simulé (comme dans[Villa et al., 2009]) car :

la modularité est une mesure de la densité des classes qui tientcompte du degré des sommets : il est moins exceptionnel d’êtrelié à un hub qu’à un sommet de faible degré donc le coût de“couper” une arête connecté à un hub doit être plus faible.

l’algorithme de recuit simulé est très facile à mettre en œuvremême si il peut être long. Il est bien adapté à des graphes de cettetaille.


N


Méthodologie et résultats

Plusieurs nombres de classes (de 4 à 12) ont été testées et lasolution avec plus forte modularité a été conservée.

Répartition du nombre de sommets dans les classesNuméro de classe 1 2 3 4 5 6 7Nombre de sommets 33 44 58 28 41 28 40

modularité = 0,395

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

CCDC56

RPL7L1

AGPS

BF442271FBXL3

MYH2

N4BP2 BX674324

X91724

CCAR1

SLA−1

TPM3

SSR4

BX672573

AW359912

BX674550

BX915888

BMPR2

UTP23

FTH1

STC1

MGP

BX671472

DGKI

RPL27A

ATP2A1

BX670979

BX67439928 nodes294 edgesDensity: 77.8%Transitivity: 85.6%


N



●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

1234567

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

CCDC56

RPL7L1

AGPS

BF442271FBXL3

MYH2

N4BP2 BX674324

X91724

CCAR1

SLA−1

TPM3

SSR4

BX672573

AW359912

BX674550

BX915888

BMPR2

UTP23

FTH1

STC1

MGP

BX671472

DGKI

RPL27A

ATP2A1

BX670979



N



●

●

●

●● ●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

● ●

● ●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

CCDC56

RPL7L1

AGPS

BF442271FBXL3

MYH2

N4BP2 BX674324

X91724

CCAR1

SLA−1

TPM3

SSR4

BX672573

AW359912

BX674550

BX915888

BMPR2

UTP23

FTH1

STC1

MGP

BX671472

DGKI

RPL27A

ATP2A1

BX670979



N



●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

CCDC56

RPL7L1

AGPS

BF442271FBXL3

MYH2

N4BP2 BX674324

X91724

CCAR1

SLA−1

TPM3

SSR4

BX672573

AW359912

BX674550

BX915888

BMPR2

UTP23

FTH1

STC1

MGP

BX671472

DGKI

RPL27A

ATP2A1

BX670979



N

Analyse de la corrélation avec le PH à l’aide d’outils de statistique spatiale

Sommaire

1 Les données






N


Données, but

But : Comprendre si et comment un phénotype d’intérêt (le PH dela viande) influence la manière dont des gènes, sélectionnés surdes caractéristiques génétiques, sont organisés entre eux.

Données : Le réseau de co-expression de gènes étudiéprécédemment et, pour chacun des 272 sommets, sa corrélation(partielle) avec le PH.

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●


N


Données, but

But : Comprendre si et comment un phénotype d’intérêt (le PH dela viande) influence la manière dont des gènes, sélectionnés surdes caractéristiques génétiques, sont organisés entre eux.Données : Le réseau de co-expression de gènes étudiéprécédemment et, pour chacun des 272 sommets, sa corrélation(partielle) avec le PH.

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●


N


Relation entre PH et classification

●●

●

●●●

●

●

●

●●

●

●

●

●

●

●

1 2 3 4 5 6 7

−0.

02−

0.01

0.00

0.01

0.02

0.03

Cluster

Par

tial c

orre

latio

n w

ith P

H

ANOVA non significative mais test de Student pour le modèlelinéaire donne un niveau de signification élevé pour le coefficientcorrespondant à la classe 4.


N


Relation entre PH et classes

Deux exemples :

●

●

●

●● ●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

● ●

● ●

●

●

●

●

●●

BX925971

RRAS

BX922566

SEC24ABX671434 PATL1

BX671687BX672338

ACOX1

APITD1

BX923543

XRCC6NUDT21

Neb

CLTA

BX667801

BX671017

BX674989

BX675907

BX665214

BX675319

CSDE1

BX671545

TACC1 BX915330

ALDH2 HIAT1

scaj0012.o.01

PPIA

BX923052

SLA−1

FADDTMEM201

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

BX919092

PSMC3IP

THRB

XIAP

ARHGAP8

X91721

BX917912

EAPP

LSM2

BX922053

BX922491

H2AFY

ENH_RAT

LMF1

FTCDBX925690

B2M

GPI

BX667979

BX920538

BX671131

RNF2

BX673501

KPNA1

BX674063

BX918923

RPS11

UBE2H

Classe 1 Classe 4Remarque : Beaucoup des gènes avec une forte corrélationpositive avec le PH se trouvent dans la classe 4. 21 / 27

Nathalie Villa-VialaneixN


Auto-corrélation spatiale dans le réseaupour la relation avec le PH : I de Moran

[Moran, 1950] a introduit une mesure de corrélation spatialenommée le I (de Moran):

I =1

2m∑

i,j wij ci cj

1n∑

i c2i

où m = 12∑

i,j wij (total des poids dans le réseau), ci est lacorrélation partielle du gène i avec le PH et ci = ci − c avecc = 1

n∑

i ci .

Interprétation : Quand I est “grand”, les sommets ont tendance àêtre reliés à des sommets dont la valeur de ci est similaire; quand Iest “petit”, les sommets ont tendance à être reliés à des sommetsdont la valeur de ci est très différente. Un I “moyen” signifie qu’il n’ya pas de relation entre les valeurs (ci)i et la structure du réseau.


N


Auto-corrélation spatiale dans le réseaupour la relation avec le PH : I de Moran

[Moran, 1950] a introduit une mesure de corrélation spatialenommée le I (de Moran):

I =1

2m∑

i,j wij ci cj

1n∑

i c2i

où m = 12∑

i,j wij (total des poids dans le réseau), ci est lacorrélation partielle du gène i avec le PH et ci = ci − c avecc = 1

n∑

i ci .Interprétation : Quand I est “grand”, les sommets ont tendance àêtre reliés à des sommets dont la valeur de ci est similaire; quand Iest “petit”, les sommets ont tendance à être reliés à des sommetsdont la valeur de ci est très différente. Un I “moyen” signifie qu’il n’ya pas de relation entre les valeurs (ci)i et la structure du réseau.


N


Significativité de I

Il existe un résultat de normalité asymptotique pour I (mais sousdes conditions particulières et pour des réseaux assez grands).On utilise une simulation de Monte Carlo pour estimer la p-valuede I.

Méthode :

permutation aléatoire des valeurs de ci entre les sommets dugraphe, P fois (P grand) ;

⇒ calcul de P valeurs du I de Moran et détermination de ladistribution empirique ;

comparaison avec la valeur observée.

23 / 27Nathalie Villa-VialaneixN


Significativité de I

Il existe un résultat de normalité asymptotique pour I (mais sousdes conditions particulières et pour des réseaux assez grands).On utilise une simulation de Monte Carlo pour estimer la p-valuede I.Méthode :

permutation aléatoire des valeurs de ci entre les sommets dugraphe, P fois (P grand) ;

⇒ calcul de P valeurs du I de Moran et détermination de ladistribution empirique ;

comparaison avec la valeur observée.

23 / 27Nathalie Villa-VialaneixN


Résultat sur les données étudiées

Moran's I

Freq

uenc

y

−0.05 0.00 0.05 0.10 0.15 0.20

050

100

150

Le I de Moran est significativement élevé : les gènes onttendance à être liés à des gènes pour lesquels la corrélation avecle PH est très similaire.

Remarque, question : Peut-être qu’il serait plus pertinent de fairece test avec (|ci |)i plutôt qu’avec (ci)i ???


N



Moran's I

Freq

uenc

y

−0.05 0.00 0.05 0.10 0.15 0.20

050

100

150

Interprétation possible : Les quelques gènes fortement corréléspositivement avec le PH sont tous dans la même classe (i.e., ilssont fortement liés).



N



Moran's I

Freq

uenc

y

−0.05 0.00 0.05 0.10 0.15 0.20

050

100

150



N


Avec la valeur absolue...

Moran's I

Freq

uenc

y

−0.05 0.00 0.05 0.10 0.15

050

100

150

Le I de Moran est également significativement élevé : les gènesont tendance à être liés à des gènes pour lesquels la corrélation(en valeur absolue) avec le PH est très similaire (les gènes trèscorrélés sont liés à des gènes très corrélés et inversement).


N


Diagramme de Moran pour mettre envaleur les gènes influents pour la cor-rélation avec le PH

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●●

● ●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●●

●

●●

●

●●

●

●

●

●

●

●

● ●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

● ●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

● ●

●

●

●

−0.02 −0.01 0.00 0.01 0.02 0.03

−0.

005

0.00

00.

005

0.01

0

CorPH

A x

Cor

PH

H−HH−LL−LL−H

Graphique des moyennes de la corrélation avec le PH dans levoisinage en fonction de la corrélation avec le PH.

Tests de significativité pour déterminer les gènes “influents”.


N


Diagramme de Moran pour mettre envaleur les gènes influents pour la cor-rélation avec le PH

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●●

● ●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●●

●

●●

●

●●

●

●

●

●

●

●

● ●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

● ●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

● ●

●

●

●

−0.02 −0.01 0.00 0.01 0.02 0.03

−0.

005

0.00

00.

005

0.01

0

CorPH

A x

Cor

PH


Graphique des moyennes de la corrélation avec le PH dans levoisinage en fonction de la corrélation avec le PH.Tests de significativité pour déterminer les gènes “influents”.


N


Où sont les gènes influents ?

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

● ●

●

●


Réseau entier

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

BX918989

BX916347

SNW1

PCBP2_MOUSE

MTCH1

BG834885

PABPC1

CD81

BX918478

BX924513

BX926921

BX667806

RBM9

EEF1A1

BX926575BX672767

EEF1A−2

KIAA494

SLA−1

SLC39A14

CCDC56

BX915803

CR939198

B2M

FIT1

BX922995

AARS

TMEM126B

H3F3B

SEPP1

GNG10

TJP3

BX915764

IMMT

BX918369

ROCK2

BX919942

TYR

BX676048

BX920880

Cluster 7


N



●

●

●

●● ●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

● ●

● ●

●

●

●

●

●●

BX925971

RRAS

BX922566

SEC24ABX671434 PATL1

BX671687BX672338

ACOX1

APITD1

BX923543

XRCC6NUDT21

Neb

CLTA

BX667801

BX671017

BX674989

BX675907

BX665214

BX675319

CSDE1

BX671545

TACC1 BX915330

ALDH2 HIAT1

scaj0012.o.01

PPIA

BX923052

SLA−1

FADDTMEM201

Cluster 1

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

BX918989

BX916347

SNW1

PCBP2_MOUSE

MTCH1

BG834885

PABPC1

CD81

BX918478

BX924513

BX926921

BX667806

RBM9

EEF1A1

BX926575BX672767

EEF1A−2

KIAA494

SLA−1

SLC39A14

CCDC56

BX915803

CR939198

B2M

FIT1

BX922995

AARS

TMEM126B

H3F3B

SEPP1

GNG10

TJP3

BX915764

IMMT

BX918369

ROCK2

BX919942

TYR

BX676048

BX920880

Cluster 7


N



●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●●

●

●

●

●

●

●

PLOD1

SEP15

CCDC47

C5H22orf32

LOC511599

BX921227

PDLIM7

SPARCL1LDHA

PRKG2

BX667797

B2M

CR939574

BE033242

BX673681

OCLN

BX915984BX670104

ZYX

BX922075

UBE2M

TRIAP1

BX674839

BX926631

CCT2

BX668837

BX669337

BEX1

RPS15BX920987

IL8

BX671117BX665361

BX665356

C2

BI359863

BX665098SUZ12

ZRANB1

KIAA0152

BX920480

NFU1

TNNI1

KCTD1

Cluster 2

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

BX918989

BX916347

SNW1

PCBP2_MOUSE

MTCH1

BG834885

PABPC1

CD81

BX918478

BX924513

BX926921

BX667806

RBM9

EEF1A1

BX926575BX672767

EEF1A−2

KIAA494

SLA−1

SLC39A14

CCDC56

BX915803

CR939198

B2M

FIT1

BX922995

AARS

TMEM126B

H3F3B

SEPP1

GNG10

TJP3

BX915764

IMMT

BX918369

ROCK2

BX919942

TYR

BX676048

BX920880

Cluster 7


N



●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

EIF3C

COMMD1

IK

BX917871

CR940191

BX676386C11orf59

BX671424

BX673689

SMARCC2

BX924343

CLPTM1L

TRIM33

BX927037

BX917034

SEPW1

BX676495

CDKN2D

BX924633

GLRX3

BX920718

PRPF40A

SLC16A3 PARD3IL13RA2

SLN

BX918744

BX671723

BX669206

ILKAP

TREX1

ACTN2

BX668043

BX921641

BSG

MTIF2

EMG1

CALM1

CENPE

UBAP1

GNAI2SLA−1

LOC777786

BX668068

SON

LOC780405

X91330

PRDX4

BX924187

THYN1

HNRPA1LOC733592

BX921514

PABPN1

MRPL41

GTF2E1

HSP90B1

BX924180

Cluster 3

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

BX918989

BX916347

SNW1

PCBP2_MOUSE

MTCH1

BG834885

PABPC1

CD81

BX918478

BX924513

BX926921

BX667806

RBM9

EEF1A1

BX926575BX672767

EEF1A−2

KIAA494

SLA−1

SLC39A14

CCDC56

BX915803

CR939198

B2M

FIT1

BX922995

AARS

TMEM126B

H3F3B

SEPP1

GNG10

TJP3

BX915764

IMMT

BX918369

ROCK2

BX919942

TYR

BX676048

BX920880

Cluster 7


N



●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

BX919092

PSMC3IP

THRB

XIAP

ARHGAP8

X91721

BX917912

EAPP

LSM2

BX922053

BX922491

H2AFY

ENH_RAT

LMF1

FTCDBX925690

B2M

GPI

BX667979

BX920538

BX671131

RNF2

BX673501

KPNA1

BX674063

BX918923

RPS11

UBE2H

Cluster 4

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

BX918989

BX916347

SNW1

PCBP2_MOUSE

MTCH1

BG834885

PABPC1

CD81

BX918478

BX924513

BX926921

BX667806

RBM9

EEF1A1

BX926575BX672767

EEF1A−2

KIAA494

SLA−1

SLC39A14

CCDC56

BX915803

CR939198

B2M

FIT1

BX922995

AARS

TMEM126B

H3F3B

SEPP1

GNG10

TJP3

BX915764

IMMT

BX918369

ROCK2

BX919942

TYR

BX676048

BX920880

Cluster 7


N



●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

APIP

PRPF3

CREB3L3

SLC35B2

BX669670

CXCL12

scai0001.d.08

TMEM14C

SELH_HUMAN

ANXA7

FAM151B

BX669689

BX923207

QIL1

BX922608

BX917123

C7H19orf62

TEC

DDX3X

ANKRD40

XBP1

BX672614

BX922943 CSNK1A1

BX668060

ODC1PDE4DIP

BX665674

LOC616632

BX914936

ARFIP1

DAPK1

CFL2

LPL

BX669627

RNASEK

SLC25A22

EEF1A1

MGST1_PIG

COMT

RPS5

Cluster 5

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

BX918989

BX916347

SNW1

PCBP2_MOUSE

MTCH1

BG834885

PABPC1

CD81

BX918478

BX924513

BX926921

BX667806

RBM9

EEF1A1

BX926575BX672767

EEF1A−2

KIAA494

SLA−1

SLC39A14

CCDC56

BX915803

CR939198

B2M

FIT1

BX922995

AARS

TMEM126B

H3F3B

SEPP1

GNG10

TJP3

BX915764

IMMT

BX918369

ROCK2

BX919942

TYR

BX676048

BX920880

Cluster 7


N



●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

CCDC56

RPL7L1

AGPS

BF442271FBXL3

MYH2

N4BP2 BX674324

X91724

CCAR1

SLA−1

TPM3

SSR4

BX672573

AW359912

BX674550

BX915888

BMPR2

UTP23

FTH1

STC1

MGP

BX671472

DGKI

RPL27A

ATP2A1

BX670979

BX674399

Cluster 6

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

BX918989

BX916347

SNW1

PCBP2_MOUSE

MTCH1

BG834885

PABPC1

CD81

BX918478

BX924513

BX926921

BX667806

RBM9

EEF1A1

BX926575BX672767

EEF1A−2

KIAA494

SLA−1

SLC39A14

CCDC56

BX915803

CR939198

B2M

FIT1

BX922995

AARS

TMEM126B

H3F3B

SEPP1

GNG10

TJP3

BX915764

IMMT

BX918369

ROCK2

BX919942

TYR

BX676048

BX920880

Cluster 7


N



●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

BX918989

BX916347

SNW1

PCBP2_MOUSE

MTCH1

BG834885

PABPC1

CD81

BX918478

BX924513

BX926921

BX667806

RBM9

EEF1A1

BX926575BX672767

EEF1A−2

KIAA494

SLA−1

SLC39A14

CCDC56

BX915803

CR939198

B2M

FIT1

BX922995

AARS

TMEM126B

H3F3B

SEPP1

GNG10

TJP3

BX915764

IMMT

BX918369

ROCK2

BX919942

TYR

BX676048

BX920880

Cluster 7


N

Moran, P. (1950).Notes on continuous stochastic phenomena.Biometrika, 37:17–23.

Schäfer, J. and Strimmer, K. (2005).An empirical bayes approach to inferring large-scale gene association networks.Bioinformatics, 21(6):754–764.

Villa, N., Dkaki, T., Gadat, S., Inglebert, J., and Truong, Q. (2009).Recherche et représentation de communautés dans des grands graphes.In Actes du colloque Veille Stratégique, Scientifique et Technologique (VSST 2009), Nancy, France.


N