Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

25
Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires N. Galtier CNRS UMR 5554 – Institut des Sciences de l’Evolution Université Montpellier 2 [email protected]

description

Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires. N. Galtier CNRS UMR 5554 – Institut des Sciences de l’Evolution Université Montpellier 2 [email protected]. Modèles Markoviens et phylogénie. Processus Markoviens: généralités. - Définition : - PowerPoint PPT Presentation

Transcript of Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Page 1: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Modélisation markovienne en phylogénie :contraintes et adaptations moléculaires

N. Galtier

CNRS UMR 5554 – Institut des Sciences de l’EvolutionUniversité Montpellier 2

[email protected]

Page 2: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Modèles Markoviens et phylogénie

- Définition:

Les chaînes de Markov ou processus de Markov sont des objets mathématiques destinésà décrire les variations d’un système au cours du temps, sous l’hypothèse (très faible)d’absence de mémoire: le futur du système dépend seulement de son état présent, etnon pas de la trajectoire qu’il a suivie pour l’atteindre.

- Quelques exemples: temps discret, états discrets: processus de branchement temps discret, états continus: marches aléatoires temps continu, états discrets: processus de Poisson temps continu, états continus: mouvements browniens

- En phylogénie moléculaire, les états du système sont les 4 nucléotides / 20 amino-acides / 61 codons, et le processus est typiquement représenté par une matrice de transition en temps continu.

Processus Markoviens: généralités

Page 3: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Modèles Markoviens et phylogénie

A C G T

A

C

G

T

X X X X

Modèle de Kimura (nucléotides)

Modèle WAG (amino-acides)

Page 4: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

- parce que l'évolution est très généralement sans mémoire

Pourquoi?

Comment?

- par l’approche statistique en phylogénie moléculaire

- pour simuler des données

- pour reconstruire des phylogénies en tenant compte du processus évolutif

- pour estimer les processus et apprendre les mécanismes de l'évolution moléculaire

Pour quoi faire?

Les modèles Markoviens sont l’outil de base de la phylogénie moléculaire

Modèles Markoviens et phylogénie

- parce que la théorie des chaînes de Markov est bien développée

Page 5: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

L’approche statistique en phylogénie moléculaire

1- modéliser

2- calculer les attendus sous le modèle

3- ajuster le modèle aux données

L'évolution d'une séquence est représentée par un processus de Markov courantle long d'un arbre.

Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle.

Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenirles estimateurs au maximum de vraisemblance des paramètres

ou

Calculer la probabilité postérieure des paramètres sachant les données et lesa priori (approche bayésienne).

Modèles Markoviens et phylogénie

Page 6: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

A

C

G

T

A C G T

matrice de substitution : M

X0

X1

X2X3

l1

l2

l3 l4

l5

l6

l7 l8

A A C A GT T C T TA A A A A

y1:y2:y3:

données : Y

topologie d'arbre T longueurs de branches: li

Modèles Markoviens et phylogénie

Calcul de vraisemblance en phylogénie moléculaire

Page 7: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

L(li, T Pr(Y | li, T Pryi | li, Ti

Pr(y1 | li, T = Pr(X0=x0).Pr(X1=x1| X0=x0). Pr(X2=x2|X1=x1).Pr(y11=A| X2=x2). Pr(y12=A| X2=x2).

Pr(y13=C| X1=x1). Pr(X3=x3| X0=x0). Pr(y14=A| X3=x3). Pr(y15=G| X3=x3) x0 x1 x2 x3

A

C

G

T

A C G T

matrice de substitution : M

X0

X1

X2X3

l1

l2

l3 l4

l5

l6

l7 l8

A A C A GT T C T TA A A A A

y1:y2:y3:

données : Y

topologie d'arbre T longueurs de branches: li

Modèles Markoviens et phylogénie

Calcul de vraisemblance en phylogénie moléculaire

Felsenstein 1981 J Mol Evol 17:368

Page 8: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Hypothèses: les sites évoluent indépendamment selon un processus Markovien commun (i.i.d.)

Le processus est typiquement représenté par une matrice M=(mij), où mij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T).

La probabilité d'être dans l'état A à l'instant t+dt est:

Dynamique instantanée:

Dynamique de long terme:

A(t+dt) = A(t) + C(t) mCA dt + G(t) mGA dt + T(t) mTA dt - A(t) (mAC + mAG + mAT) dt (1)

et de même pour les 3 autres états.

La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2):

Ces 4 équations différentielles s'expriment matriciellement comme:

F(t+dt)=F(t)+M.F(t).dt (2) , où F(t) = (A(t), C(t), G(t), T(t))t

F(t+dt)=F(t)+M.F(t).dt F(t)=eM.t.F(0)

La matrice P(t)=eMt donne les probabilités de changement sous M pendant la durée t:pij(t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0.

(3)

Modèles Markoviens et phylogénie

Calcul des probabilités de transition

Page 9: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Modèles Markoviens et phylogénie

Usages de la fonction de vraisemblance

L'approche bayésienne permet de faire la même chose avec des modèles plus complexes, si l'on accepte de se donner des a priori (et d’attendre que les MCMC mélangent).

Sachant calculer la vraisemblance, on peut:

- estimer les paramètres en la maximisant (ML = Maximum Likelihood)

- tester des hypothèses en comparant des modèles (LRT = Likelihood Ratio Test)

- reconstruire les détails du processus en utilisant les vraisemblances conditionnelles (EB = Empirical Bayesian)

Page 10: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Trois exemples de questions biologiques que l’on peut vouloir poser à sa molécule favorite et qui requièrent un bon usage des modèles Markoviens:

- a-t-elle évolué sous l’influence de la sélection positive? (modèles codon)

- a-t-telle subi des changements fonctionnels ? (modèles covarion = hétérotaches)

- peut-on exhiber des effets de coévolution entre sites ? (modèles d’écart à l’indépendance)

Page 11: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Détecter la sélection positive

T

C

A

G

T C A G

2e position

TTT PheTTC PheTTA LeuTTG Leu

CTT LeuCTC LeuCTA LeuCTG Leu

ATT IleATC IleATA IleATG Met

GTT ValGTC ValGTA ValGTG Val

TCT SerTCC SerTCA SerTCG Ser

CCT ProCCC ProCCA ProCCG Pro

ACT ThrACC ThrACA ThrACG Thr

GCT AlaGCC AlaGCA AlaGCG Ala

TAT TyrTAC TyrTAA StopTAG Stop

CAT HisCAC HisCAA GlnCAG Gln

AAT AsnAAC AsnAAA LysAAG Lys

GAT AspGAC AspGAA GluGAG Glu

TGT CysTGC CysTGA StopTGG Trp

CGT ArgCGC ArgCGA ArgCGG Arg

AGT SerAGC SerAGA ArgAGG Arg

GGT GlyGGC GlyGGA GlyGGG Gly

Page 12: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Détecter la sélection positive

Un changement de nucléotide dans une région codante est dit:

- synonyme s'il n'entraine pas de modification de l'acide aminé codé- non-synonyme dans le cas contraire

Les changements synonymes sont neutres (en première approximation) et évoluent selon le processus mutationnel.

- pour un pseudogène (cas neutre), on a dN=dS.

Idée: détecter l'adaptation par la recherche de gènes pour lesquels dN>dS(e.g. Messier & Stewart 1997 Nature 385:151, Wyckoff et al. 2000 Nature 403:304)

Les changements non-synonymes sont soumis à sélection naturelle:

- sous le régime (majoritaire) de la sélection purificatrice, la vitesse d'évolution non-synonyme (dN) est inférieure à la vitesse d'évolution synonyme (dS).

Evolution synonyme vs. non-synonyme

Page 13: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Détecter la sélection positive

Le modèle codon de Goldman & Yang

0 si les 2 codons X et Y diffèrent par plus d'une base

.Y si les 2 codons X et Y diffèrent par une transversion synonyme

Y si les 2 codons X et Y diffèrent par une transversion non-synonyme

.Y si les 2 codons X et Y diffèrent par une transition synonyme

.Y si les 2 codons X et Y diffèrent par une transversion non-synonyme

mXY =

Le paramètre d'intérêt peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites.

Goldman & Yang 1994 Mol Biol Evol 11:725

On définit M, la matrice de substitution 61 x 61 entre codons, par:

<1: sélection purificatrice ; =1: évolution neutre ; >1: sélection positive

Page 14: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Détecter la sélection positive

Exemple de l’adaptation à l’herbivorie chez les Colobinés

Modèle 2 : 0 C ln(L)= -1037.04 0 = 0.389 ; C = 3.383

Modèle 1 : 0 = C ln(L)= -1043.84 0 = C = 0.574

Modèle 3 : 0 (C = 1) ln(L)= -1042.58 0 = 0.488

(Yang 1998 Mol Biol Evol 15:568)

Lysozyme:

Page 15: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Détecter la sélection positive

Nielsen et al (2005 PLoS 3:170) analysent 13731 gènes chez l'homme et le chimpanzécalculent le dN/dS pour chaque paire, et comparent différents facteurs.

Fonction n p-val

Immunité

Perception sensorielle

Gametogenèse

Inhibition apoptose

417

51

40

133

<10-10

<10-3

<10-2

<5%

Tissue n p-val

Testicules

Cerveau

Thyroïde

Sang

247

66

405

133

<10-3

<5%

NS

NS

Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire,la perception/communication, et la compétition spermatique/conflit génomique.

Une approche génomique chez l’homme

Page 16: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Changements fonctionnels et hétérotachie

mutation favorable

fonction 1 fonction 2

sites hétérotaches

Adaptation moléculaire et changements de vitesse sites-spécifiques

Page 17: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Vitesse d’évolution constante entre sites

Variation de vitesse site-spécifique = HETEROTACHIE

Vitesse d’évolution variable entre sites

Changements fonctionnels et hétérotachie

Page 18: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Galtier (2001) Mol. Biol. Evol. 18:866

Changements fonctionnels et hétérotachie

a. Vitesse constante entre sites

c. Variation de vitesse site-spécifique = covarions = hétérotachie

b. Vitesse variable entre sites

M M.r1 M.r2 M.r3

M.r1

M.r2

M.r3

Page 19: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

LR = 2 . [ln(L1) – ln(L0)] ~2 (1 ddl)

r < 1r = 1

r > 1

M0

(pas d’hétérotachie)

r2 > r1 r1 > r2

M1

(hétérotachie)

Changements fonctionnels et hétérotachie

Un test de rapport de vraisemblance pour déteter l’hétérotachie

Page 20: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

a b c d e f gS T M F S L PS T M F S L PS T M F I F PS T M F T F PS T M F Y F MS T M F H F HS T M F H F TS T M F Y F PS T M F L F PS T M F F F FS T M F H F TS T M F Y F AS T M F P F PS T M F P F PS T M F P H LS T M F P F PS T M F L H TS T M F W V FS T M F F T PS T M F T V FS T M F L F LA A M V L F IA T M I L F I A T N A L F IA I V S L F IS V M F L F I T T V I L F IF T T L L F IS T M F W S IS T M M W S TS T M F M N QS T M F P H YS T M F P H P

PRIMATES

Pupko & Galtier (2002) Proc Roy Soc London B 269:1313

Page 21: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Ecarts à l’indépendance des sites = coévolution

Les modèles standard font l’hypothèse d’indépendance entre sites

- cela parait naïf vue l’importance des interactions entre résidus dans les macromolécules

- ceci dit, autant la coévolution est flagrante au sein des ARN, autant elle est peu visible entre amino-acides

- d’où le double intérêt à l’étude de la coévolution moléculaire:

- identifier les contraintes ayant influencé l’évolution de ma molécule favorite

- comprendre le vide bibliographique associé aux protéines: mauvaises méthodes? données inappropriées? signal réellement faible?

Page 22: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Ecarts à l’indépendance des sites = coévolution

On peut modéliser la coévolution

-Tillier & Collins 1998 Genetics 148:1993, Pollock et al 1999 J Mol Biol 287:187 proposent des modèles sur les paires d’états:

AA AC AG AT CA …

AA

AG

AT

CA

.

.

.

- Mais ces modèles sont difficiles à utiliser, et peu généralisables

Page 23: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Ecarts à l’indépendance des sites = coévolution

Une approche par cartographie des substitutions

A C A G T T C . . .

A G A G C T A . . .

A G A G C T A . . .

T C A G T T C . . .

T C G G T T T . . .

. . . . . .cartographie probabiliste

"clustering des mappings"

tests de significativité

Page 24: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Ecarts à l’indépendance des sites = coévolution

oUG

AAACA

UCUUCGGG U U G

UGAGGU

UAA

GCGA

CU

AA

GCGUACACGGUGGA

UGCCCUGGCA GUCA GA G

GCGAUGAAGGACG

UGCUAA

UCUGCGAUAAGC

GUCGGUAA G

GUGAUA

UGAAC

CGUUAUA

ACC

GGCGAUUUCCGAAUG

GGGAAACCCAGUGUGUUUC

GACACACUAU

CAUUAACUGAAUCC

AUAG

GUUA

AUGAGGCGAACCGGGG

GAA C

UGAAA

CAUCUAAGU

ACCCCGA

GGAAAAG

AAAUCAACC

GAGAUU

CCCCC

AGUAG

CGGCG

AGCG

AACGGGGAGCA

GCC

C

A

GAGCCUGAAUCAGUGUGUGUGUUAGUGGA

AGCGU CUGG

AAAGGCGCGCGAUACAGGGUGA

CAGCCCC

GUA C

ACA

AA AAUGCACAUGCUGUGAGCUCGAU

GAGUAGGGCGGGACAC

GUGGU AUCCUGUCU

GAAUA

UGGGGGGACCAUCCUCC A AGG

CUAAAUACU

CCUGACUG

ACC

GAUAGUGAACC

AGUACCGU

GAGGGAAA

GGCGAAAAGAA

CCC

CGGC

GAGGGGAGUGAAAAAG

AACCUGAAACCGUGUACGUACAAGCAG

UGGGAG

CACGCUUA

GGCGUGUGACUGCGUACCUUUUGUAUAAUGGGUCAGCG

ACU

UAUAUUCUGUAGCAAGG

UUA AC

CGAA

UAGG

GGAGCC

GAA

GGGAAA

CCGAGU

CUUAA

CUG

GGCGUUA A

GUUGCAGGGUAUAGA

CCCGAAACCC

GGUGAUCUAGCCAU

GGGC

A

GGUUGA

AGGUU

GGGUAACA

CUAA

CUGGA

GGACCGA

ACCGACUAA

UGUUG

AAAAA

UUAGCGG

AU

GACUUGUGGCUGG

GGGUGAAAGGCC

AAUCAA

ACCGGGAGAUAGCU

GGUUCUC

CCCGAAAG

CUAUUUA

GGUAGCGCCUC

GUGAAUUCAU

CUCCGGGGGUAGAGCAC

UGU

UUCG

GCAAGGGGG

UCAUC

CCGACUUACCA

ACCCGAUGCAAACUGCG

AA UACCGGAGAAU

GUUA UC

ACGGGA

GACACACGGCGGGUGC

UAACGUCCGU CGUG

AAGAGGG

AAAC AA

CCCAGAC

CGCCAGCUAAGGUCC

CAAAGUCAUGGUUA

AGUGGGAAACGAUGUGGGAAGGCCC

AGACAG

CCAGGAUGUUGGCUUA

GAAGCAGCCAU CA UU

UAA AGAA AGCGUA

AUAGCUC

ACUGGUCGA

GUCGGCCUGCGCGGA AGA

UGUAACGG

GGCUAAACCAUGC

ACCGAA

GCUGCGGCAGCGACGCUUAUG

CGUUGU

UGGGUAGGGGAGCGUUCUGUAAGCCUG

CGAA G

GUGUGCUGUGAGGCAUGCUGGA

GGUAUCAGAAGUGCG

AAUGCUGAC

A

U

A

A

G

U

A

ACGAUAA

AGCG

GGUGAA

AAGCCCGCUCGCCGGAA

GACCAAGGGUUCCUGU

CC AACGU

UAAU

CGGGG

CAGGGUGAG

UCGACCCCUAAG

GCGAGGCCGAAA

GGC

GUAGUCG

AUGGG

AAACAGGUUA

AUAUUCCUGUA

CUUGGUGUUACUG

CGAAGGGGG

GACGGAGAAGGCUAUGUUGGCCG

GGCGACG

GUUGUC

CCGGUUU

AAGC

GUGUAGGC

UGG

UUUU

CCAGG

CAAAU

CCGGAAAAUCAAGGCUGA

GGCGUGA

UGA CGAGGCACUA

CGGUGCUGAAGC

AACAAAUG

CCCUGC

UUCC AGG

AAAAGC

CUCUAAG

CAUCAG

GUAACAUCAAAUCG

UACCCCAA

A CCGA CACAGG

UGGUCA GGUAGAGA

AUACCAAGGCGC

UUGAGA

GAACUCGGGUGAAGGAACUAGGCAAAA

UGGUGCCGUAA

CUUCG

GGAGAAGGCACGCUGAUA

UGUAGG

UGAAGCGACUUG

CUCGUGGAGCUGAAAUCAGUCGA

AGAU AC CAGC

UGGCUGCAA

CUGUUUAU

UAAA AA CA

CAGCACUGUGCA

AACACGAAAGUGGACGUAUA

CGGUGUG

ACGCC

UGCCC

GGUGCCGGAAGGUU

AAUUGAUGGGGUUAGCGCAA

GCGAAG

CUCUU

GAUCGAAG

CCCCGGUAAA

CGGCGGCCGUAACUAUAA

CGGU

CCUA AGGU AGCG

AAAAUUCCUUG

UCGGGUAAGU

UCC

GACCUGCAC

GAAUGGCGUAAU

GAUGGCCAGGCUGUCUCCACCCGAGACUCA

GUGAAAUUGAACUC

GCUGU

GAAGA

UGCAGUGUACC

CGCGGCAAGACG

G

A

A

A

G

ACCCCGUGAACCUUUACUAUAGCUUGACACUGAACAUUGAGCCUUGAUGUG

UAGGA UAG

GUGGGAGGCUU

AGAAG

UGUGGACGCCAGUCUGCAUGGAG

CCGA CCU

UGAAAUA

CCACCCUUUAAUGUUUGAUGUUCUA AC

GUUGACCCGUAA

UCC

GGGU

UGCGGACAG

UGUCUGGUGGG

UAGUUU G

ACUGGGGCGGUC UC

CUCCUAAAGAG

UAACGG

AGGAG

C

AC

G

AAGGUUGGCUAAUCCUGG

UCGGA

CAUC

AGGAGGUU

A

GUGCAA

UGGCAUAAG

CCAG

CUUGACUGCGAGCGUGA

CGGCGCGAGCAGGUGCGAAA

GCAG

GUCAUAGUGAUCCGG

UGGUU

CUGAAUGGA

AGG

GCC

AUCGCUCA

ACGGAUAAAAGGUACU

CCGGGGA UA A CA G

GC UGAU ACCGCCC A A

GAGUUCAUAU

CGAC

GGCGGUGUUUGGC

ACCUCGAUGUCGGC U

CAUCACA UCC

UGGGGCUGAAG

UAGG

UCCCCA

AGGGUAUGCU

GUUC

GCCAUUU

AAAGU

GGUA

CGCG

AGC

UGGGUUUAG

AACGUCGUGA

GACAGUUCG

GUCCC

UAUC

UGCCG

UGGG

C

G

C

U

GGAGAAC UG A

GGGGGGCUGCUCCU

AGUACGAGAG

GACCG

GAGUGGACGCAU

CACU

GGUGUUCGGGU UG

UCAUGC

CAAUGCACU

GCCCGGU

AGCUAA

AUGCGGAAGAGAUAAG

UGCUGAAAGCA

UCUAAGCACG

AAA CUUGCCCC

GAGAU

GAGUUCUCC

CUG ACCCUU

UAAGGGUC

C

U

G

A

A

GGAA CGUUGAAGAC

GACGACGUUGAUA GGCCGG

GUGUGUAA

GCGCAGCGAUGCGU

UGAGC

UAACCGGU

ACUAAUGAA

CCG

U

G

A

G

GCUUAAC

CUUo

A1

B1

B2B3

B4B5

B6

B7B8

B9

B10

B11

B12

B13

B14

B15

B16B17

B18

B19B20

B21

C1

D1

D2

D3

D4D5

D6

D7

D8

D9

D10

D11

D12D13

D14

D15

D16

D17

D18 D19

D20

D21

D22

E1

E2

E3

E4E5

E6

E7

E8

E9

E10

E11

E12

E13

E14

E15

E16E17

E18

E19

E20E21

E22

E23

E24

E25

E26

E27

E28

F1

G1

G2

G3

G4

G5

G6 G7

G8

G9

G10

G11

G12

G13

G14

G15

G16

G17

G18

G19

G20

H1H2

H3

H4H1_1

I1

I2

I3

Escherichia coli D U18997

ARN ribosomique 16S

P formyl-transferase

Dutheil et al 2005 Mol Biol Evol 22:1919

Page 25: Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Modèles Markoviens et phylogénie: perspectives

Il existe d'autres modèles, d'autres applications:

reconstruction de séquences ancestrales (Zhang 2006 Nat Genet 38:819)

variations de processus entre sites (Lartillot & Philippe 2004 Mol Biol Evol 21:1095)

variations temporelles du régime sélectif d'un site (Guindon et al 2004 PNAS 101:12957)

prise en compte des contraintes structurales (Kleinman et al 2006 BMC Bioinform 7:326)

Passage à l'échelle génomique?

horloge moléculaire relâchée et datations (Thorne & Kishino 2002 Syst. Biol. 51:689)