Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires
Embed Size (px)
description
Transcript of Modélisation markovienne en phylogénie : contraintes et adaptations moléculaires

Modélisation markovienne en phylogénie :contraintes et adaptations moléculaires
N. Galtier
CNRS UMR 5554 – Institut des Sciences de l’EvolutionUniversité Montpellier 2

Modèles Markoviens et phylogénie
- Définition:
Les chaînes de Markov ou processus de Markov sont des objets mathématiques destinésà décrire les variations d’un système au cours du temps, sous l’hypothèse (très faible)d’absence de mémoire: le futur du système dépend seulement de son état présent, etnon pas de la trajectoire qu’il a suivie pour l’atteindre.
- Quelques exemples: temps discret, états discrets: processus de branchement temps discret, états continus: marches aléatoires temps continu, états discrets: processus de Poisson temps continu, états continus: mouvements browniens
- En phylogénie moléculaire, les états du système sont les 4 nucléotides / 20 amino-acides / 61 codons, et le processus est typiquement représenté par une matrice de transition en temps continu.
Processus Markoviens: généralités

Modèles Markoviens et phylogénie
A C G T
A
C
G
T
X X X X
Modèle de Kimura (nucléotides)
Modèle WAG (amino-acides)

- parce que l'évolution est très généralement sans mémoire
Pourquoi?
Comment?
- par l’approche statistique en phylogénie moléculaire
- pour simuler des données
- pour reconstruire des phylogénies en tenant compte du processus évolutif
- pour estimer les processus et apprendre les mécanismes de l'évolution moléculaire
Pour quoi faire?
Les modèles Markoviens sont l’outil de base de la phylogénie moléculaire
Modèles Markoviens et phylogénie
- parce que la théorie des chaînes de Markov est bien développée

L’approche statistique en phylogénie moléculaire
1- modéliser
2- calculer les attendus sous le modèle
3- ajuster le modèle aux données
L'évolution d'une séquence est représentée par un processus de Markov courantle long d'un arbre.
Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle.
Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenirles estimateurs au maximum de vraisemblance des paramètres
ou
Calculer la probabilité postérieure des paramètres sachant les données et lesa priori (approche bayésienne).
Modèles Markoviens et phylogénie

A
C
G
T
A C G T
matrice de substitution : M
X0
X1
X2X3
l1
l2
l3 l4
l5
l6
l7 l8
A A C A GT T C T TA A A A A
y1:y2:y3:
données : Y
topologie d'arbre T longueurs de branches: li
Modèles Markoviens et phylogénie
Calcul de vraisemblance en phylogénie moléculaire

L(li, T Pr(Y | li, T Pryi | li, Ti
Pr(y1 | li, T = Pr(X0=x0).Pr(X1=x1| X0=x0). Pr(X2=x2|X1=x1).Pr(y11=A| X2=x2). Pr(y12=A| X2=x2).
Pr(y13=C| X1=x1). Pr(X3=x3| X0=x0). Pr(y14=A| X3=x3). Pr(y15=G| X3=x3) x0 x1 x2 x3
A
C
G
T
A C G T
matrice de substitution : M
X0
X1
X2X3
l1
l2
l3 l4
l5
l6
l7 l8
A A C A GT T C T TA A A A A
y1:y2:y3:
données : Y
topologie d'arbre T longueurs de branches: li
Modèles Markoviens et phylogénie
Calcul de vraisemblance en phylogénie moléculaire
Felsenstein 1981 J Mol Evol 17:368

Hypothèses: les sites évoluent indépendamment selon un processus Markovien commun (i.i.d.)
Le processus est typiquement représenté par une matrice M=(mij), où mij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T).
La probabilité d'être dans l'état A à l'instant t+dt est:
Dynamique instantanée:
Dynamique de long terme:
A(t+dt) = A(t) + C(t) mCA dt + G(t) mGA dt + T(t) mTA dt - A(t) (mAC + mAG + mAT) dt (1)
et de même pour les 3 autres états.
La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2):
Ces 4 équations différentielles s'expriment matriciellement comme:
F(t+dt)=F(t)+M.F(t).dt (2) , où F(t) = (A(t), C(t), G(t), T(t))t
F(t+dt)=F(t)+M.F(t).dt F(t)=eM.t.F(0)
La matrice P(t)=eMt donne les probabilités de changement sous M pendant la durée t:pij(t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0.
(3)
Modèles Markoviens et phylogénie
Calcul des probabilités de transition

Modèles Markoviens et phylogénie
Usages de la fonction de vraisemblance
L'approche bayésienne permet de faire la même chose avec des modèles plus complexes, si l'on accepte de se donner des a priori (et d’attendre que les MCMC mélangent).
Sachant calculer la vraisemblance, on peut:
- estimer les paramètres en la maximisant (ML = Maximum Likelihood)
- tester des hypothèses en comparant des modèles (LRT = Likelihood Ratio Test)
- reconstruire les détails du processus en utilisant les vraisemblances conditionnelles (EB = Empirical Bayesian)

Trois exemples de questions biologiques que l’on peut vouloir poser à sa molécule favorite et qui requièrent un bon usage des modèles Markoviens:
- a-t-elle évolué sous l’influence de la sélection positive? (modèles codon)
- a-t-telle subi des changements fonctionnels ? (modèles covarion = hétérotaches)
- peut-on exhiber des effets de coévolution entre sites ? (modèles d’écart à l’indépendance)

Détecter la sélection positive
T
C
A
G
T C A G
2e position
TTT PheTTC PheTTA LeuTTG Leu
CTT LeuCTC LeuCTA LeuCTG Leu
ATT IleATC IleATA IleATG Met
GTT ValGTC ValGTA ValGTG Val
TCT SerTCC SerTCA SerTCG Ser
CCT ProCCC ProCCA ProCCG Pro
ACT ThrACC ThrACA ThrACG Thr
GCT AlaGCC AlaGCA AlaGCG Ala
TAT TyrTAC TyrTAA StopTAG Stop
CAT HisCAC HisCAA GlnCAG Gln
AAT AsnAAC AsnAAA LysAAG Lys
GAT AspGAC AspGAA GluGAG Glu
TGT CysTGC CysTGA StopTGG Trp
CGT ArgCGC ArgCGA ArgCGG Arg
AGT SerAGC SerAGA ArgAGG Arg
GGT GlyGGC GlyGGA GlyGGG Gly

Détecter la sélection positive
Un changement de nucléotide dans une région codante est dit:
- synonyme s'il n'entraine pas de modification de l'acide aminé codé- non-synonyme dans le cas contraire
Les changements synonymes sont neutres (en première approximation) et évoluent selon le processus mutationnel.
- pour un pseudogène (cas neutre), on a dN=dS.
Idée: détecter l'adaptation par la recherche de gènes pour lesquels dN>dS(e.g. Messier & Stewart 1997 Nature 385:151, Wyckoff et al. 2000 Nature 403:304)
Les changements non-synonymes sont soumis à sélection naturelle:
- sous le régime (majoritaire) de la sélection purificatrice, la vitesse d'évolution non-synonyme (dN) est inférieure à la vitesse d'évolution synonyme (dS).
Evolution synonyme vs. non-synonyme

Détecter la sélection positive
Le modèle codon de Goldman & Yang
0 si les 2 codons X et Y diffèrent par plus d'une base
.Y si les 2 codons X et Y diffèrent par une transversion synonyme
Y si les 2 codons X et Y diffèrent par une transversion non-synonyme
.Y si les 2 codons X et Y diffèrent par une transition synonyme
.Y si les 2 codons X et Y diffèrent par une transversion non-synonyme
mXY =
Le paramètre d'intérêt peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites.
Goldman & Yang 1994 Mol Biol Evol 11:725
On définit M, la matrice de substitution 61 x 61 entre codons, par:
<1: sélection purificatrice ; =1: évolution neutre ; >1: sélection positive

Détecter la sélection positive
Exemple de l’adaptation à l’herbivorie chez les Colobinés
Modèle 2 : 0 C ln(L)= -1037.04 0 = 0.389 ; C = 3.383
Modèle 1 : 0 = C ln(L)= -1043.84 0 = C = 0.574
Modèle 3 : 0 (C = 1) ln(L)= -1042.58 0 = 0.488
(Yang 1998 Mol Biol Evol 15:568)
Lysozyme:

Détecter la sélection positive
Nielsen et al (2005 PLoS 3:170) analysent 13731 gènes chez l'homme et le chimpanzécalculent le dN/dS pour chaque paire, et comparent différents facteurs.
Fonction n p-val
Immunité
Perception sensorielle
Gametogenèse
Inhibition apoptose
417
51
40
133
<10-10
<10-3
<10-2
<5%
Tissue n p-val
Testicules
Cerveau
Thyroïde
Sang
247
66
405
133
<10-3
<5%
NS
NS
Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire,la perception/communication, et la compétition spermatique/conflit génomique.
Une approche génomique chez l’homme

Changements fonctionnels et hétérotachie
mutation favorable
fonction 1 fonction 2
sites hétérotaches
Adaptation moléculaire et changements de vitesse sites-spécifiques

Vitesse d’évolution constante entre sites
Variation de vitesse site-spécifique = HETEROTACHIE
Vitesse d’évolution variable entre sites
Changements fonctionnels et hétérotachie

Galtier (2001) Mol. Biol. Evol. 18:866
Changements fonctionnels et hétérotachie
a. Vitesse constante entre sites
c. Variation de vitesse site-spécifique = covarions = hétérotachie
b. Vitesse variable entre sites
M M.r1 M.r2 M.r3
M.r1
M.r2
M.r3

LR = 2 . [ln(L1) – ln(L0)] ~2 (1 ddl)
r < 1r = 1
r > 1
M0
(pas d’hétérotachie)
r2 > r1 r1 > r2
M1
(hétérotachie)
Changements fonctionnels et hétérotachie
Un test de rapport de vraisemblance pour déteter l’hétérotachie

a b c d e f gS T M F S L PS T M F S L PS T M F I F PS T M F T F PS T M F Y F MS T M F H F HS T M F H F TS T M F Y F PS T M F L F PS T M F F F FS T M F H F TS T M F Y F AS T M F P F PS T M F P F PS T M F P H LS T M F P F PS T M F L H TS T M F W V FS T M F F T PS T M F T V FS T M F L F LA A M V L F IA T M I L F I A T N A L F IA I V S L F IS V M F L F I T T V I L F IF T T L L F IS T M F W S IS T M M W S TS T M F M N QS T M F P H YS T M F P H P
PRIMATES
Pupko & Galtier (2002) Proc Roy Soc London B 269:1313

Ecarts à l’indépendance des sites = coévolution
Les modèles standard font l’hypothèse d’indépendance entre sites
- cela parait naïf vue l’importance des interactions entre résidus dans les macromolécules
- ceci dit, autant la coévolution est flagrante au sein des ARN, autant elle est peu visible entre amino-acides
- d’où le double intérêt à l’étude de la coévolution moléculaire:
- identifier les contraintes ayant influencé l’évolution de ma molécule favorite
- comprendre le vide bibliographique associé aux protéines: mauvaises méthodes? données inappropriées? signal réellement faible?

Ecarts à l’indépendance des sites = coévolution
On peut modéliser la coévolution
-Tillier & Collins 1998 Genetics 148:1993, Pollock et al 1999 J Mol Biol 287:187 proposent des modèles sur les paires d’états:
AA AC AG AT CA …
AA
AG
AT
CA
.
.
.
- Mais ces modèles sont difficiles à utiliser, et peu généralisables

Ecarts à l’indépendance des sites = coévolution
Une approche par cartographie des substitutions
A C A G T T C . . .
A G A G C T A . . .
A G A G C T A . . .
T C A G T T C . . .
T C G G T T T . . .
. . . . . .cartographie probabiliste
"clustering des mappings"
tests de significativité

Ecarts à l’indépendance des sites = coévolution
oUG
AAACA
UCUUCGGG U U G
UGAGGU
UAA
GCGA
CU
AA
GCGUACACGGUGGA
UGCCCUGGCA GUCA GA G
GCGAUGAAGGACG
UGCUAA
UCUGCGAUAAGC
GUCGGUAA G
GUGAUA
UGAAC
CGUUAUA
ACC
GGCGAUUUCCGAAUG
GGGAAACCCAGUGUGUUUC
GACACACUAU
CAUUAACUGAAUCC
AUAG
GUUA
AUGAGGCGAACCGGGG
GAA C
UGAAA
CAUCUAAGU
ACCCCGA
GGAAAAG
AAAUCAACC
GAGAUU
CCCCC
AGUAG
CGGCG
AGCG
AACGGGGAGCA
GCC
C
A
GAGCCUGAAUCAGUGUGUGUGUUAGUGGA
AGCGU CUGG
AAAGGCGCGCGAUACAGGGUGA
CAGCCCC
GUA C
ACA
AA AAUGCACAUGCUGUGAGCUCGAU
GAGUAGGGCGGGACAC
GUGGU AUCCUGUCU
GAAUA
UGGGGGGACCAUCCUCC A AGG
CUAAAUACU
CCUGACUG
ACC
GAUAGUGAACC
AGUACCGU
GAGGGAAA
GGCGAAAAGAA
CCC
CGGC
GAGGGGAGUGAAAAAG
AACCUGAAACCGUGUACGUACAAGCAG
UGGGAG
CACGCUUA
GGCGUGUGACUGCGUACCUUUUGUAUAAUGGGUCAGCG
ACU
UAUAUUCUGUAGCAAGG
UUA AC
CGAA
UAGG
GGAGCC
GAA
GGGAAA
CCGAGU
CUUAA
CUG
GGCGUUA A
GUUGCAGGGUAUAGA
CCCGAAACCC
GGUGAUCUAGCCAU
GGGC
A
GGUUGA
AGGUU
GGGUAACA
CUAA
CUGGA
GGACCGA
ACCGACUAA
UGUUG
AAAAA
UUAGCGG
AU
GACUUGUGGCUGG
GGGUGAAAGGCC
AAUCAA
ACCGGGAGAUAGCU
GGUUCUC
CCCGAAAG
CUAUUUA
GGUAGCGCCUC
GUGAAUUCAU
CUCCGGGGGUAGAGCAC
UGU
UUCG
GCAAGGGGG
UCAUC
CCGACUUACCA
ACCCGAUGCAAACUGCG
AA UACCGGAGAAU
GUUA UC
ACGGGA
GACACACGGCGGGUGC
UAACGUCCGU CGUG
AAGAGGG
AAAC AA
CCCAGAC
CGCCAGCUAAGGUCC
CAAAGUCAUGGUUA
AGUGGGAAACGAUGUGGGAAGGCCC
AGACAG
CCAGGAUGUUGGCUUA
GAAGCAGCCAU CA UU
UAA AGAA AGCGUA
AUAGCUC
ACUGGUCGA
GUCGGCCUGCGCGGA AGA
UGUAACGG
GGCUAAACCAUGC
ACCGAA
GCUGCGGCAGCGACGCUUAUG
CGUUGU
UGGGUAGGGGAGCGUUCUGUAAGCCUG
CGAA G
GUGUGCUGUGAGGCAUGCUGGA
GGUAUCAGAAGUGCG
AAUGCUGAC
A
U
A
A
G
U
A
ACGAUAA
AGCG
GGUGAA
AAGCCCGCUCGCCGGAA
GACCAAGGGUUCCUGU
CC AACGU
UAAU
CGGGG
CAGGGUGAG
UCGACCCCUAAG
GCGAGGCCGAAA
GGC
GUAGUCG
AUGGG
AAACAGGUUA
AUAUUCCUGUA
CUUGGUGUUACUG
CGAAGGGGG
GACGGAGAAGGCUAUGUUGGCCG
GGCGACG
GUUGUC
CCGGUUU
AAGC
GUGUAGGC
UGG
UUUU
CCAGG
CAAAU
CCGGAAAAUCAAGGCUGA
GGCGUGA
UGA CGAGGCACUA
CGGUGCUGAAGC
AACAAAUG
CCCUGC
UUCC AGG
AAAAGC
CUCUAAG
CAUCAG
GUAACAUCAAAUCG
UACCCCAA
A CCGA CACAGG
UGGUCA GGUAGAGA
AUACCAAGGCGC
UUGAGA
GAACUCGGGUGAAGGAACUAGGCAAAA
UGGUGCCGUAA
CUUCG
GGAGAAGGCACGCUGAUA
UGUAGG
UGAAGCGACUUG
CUCGUGGAGCUGAAAUCAGUCGA
AGAU AC CAGC
UGGCUGCAA
CUGUUUAU
UAAA AA CA
CAGCACUGUGCA
AACACGAAAGUGGACGUAUA
CGGUGUG
ACGCC
UGCCC
GGUGCCGGAAGGUU
AAUUGAUGGGGUUAGCGCAA
GCGAAG
CUCUU
GAUCGAAG
CCCCGGUAAA
CGGCGGCCGUAACUAUAA
CGGU
CCUA AGGU AGCG
AAAAUUCCUUG
UCGGGUAAGU
UCC
GACCUGCAC
GAAUGGCGUAAU
GAUGGCCAGGCUGUCUCCACCCGAGACUCA
GUGAAAUUGAACUC
GCUGU
GAAGA
UGCAGUGUACC
CGCGGCAAGACG
G
A
A
A
G
ACCCCGUGAACCUUUACUAUAGCUUGACACUGAACAUUGAGCCUUGAUGUG
UAGGA UAG
GUGGGAGGCUU
AGAAG
UGUGGACGCCAGUCUGCAUGGAG
CCGA CCU
UGAAAUA
CCACCCUUUAAUGUUUGAUGUUCUA AC
GUUGACCCGUAA
UCC
GGGU
UGCGGACAG
UGUCUGGUGGG
UAGUUU G
ACUGGGGCGGUC UC
CUCCUAAAGAG
UAACGG
AGGAG
C
AC
G
AAGGUUGGCUAAUCCUGG
UCGGA
CAUC
AGGAGGUU
A
GUGCAA
UGGCAUAAG
CCAG
CUUGACUGCGAGCGUGA
CGGCGCGAGCAGGUGCGAAA
GCAG
GUCAUAGUGAUCCGG
UGGUU
CUGAAUGGA
AGG
GCC
AUCGCUCA
ACGGAUAAAAGGUACU
CCGGGGA UA A CA G
GC UGAU ACCGCCC A A
GAGUUCAUAU
CGAC
GGCGGUGUUUGGC
ACCUCGAUGUCGGC U
CAUCACA UCC
UGGGGCUGAAG
UAGG
UCCCCA
AGGGUAUGCU
GUUC
GCCAUUU
AAAGU
GGUA
CGCG
AGC
UGGGUUUAG
AACGUCGUGA
GACAGUUCG
GUCCC
UAUC
UGCCG
UGGG
C
G
C
U
GGAGAAC UG A
GGGGGGCUGCUCCU
AGUACGAGAG
GACCG
GAGUGGACGCAU
CACU
GGUGUUCGGGU UG
UCAUGC
CAAUGCACU
GCCCGGU
AGCUAA
AUGCGGAAGAGAUAAG
UGCUGAAAGCA
UCUAAGCACG
AAA CUUGCCCC
GAGAU
GAGUUCUCC
CUG ACCCUU
UAAGGGUC
C
U
G
A
A
GGAA CGUUGAAGAC
GACGACGUUGAUA GGCCGG
GUGUGUAA
GCGCAGCGAUGCGU
UGAGC
UAACCGGU
ACUAAUGAA
CCG
U
G
A
G
GCUUAAC
CUUo
A1
B1
B2B3
B4B5
B6
B7B8
B9
B10
B11
B12
B13
B14
B15
B16B17
B18
B19B20
B21
C1
D1
D2
D3
D4D5
D6
D7
D8
D9
D10
D11
D12D13
D14
D15
D16
D17
D18 D19
D20
D21
D22
E1
E2
E3
E4E5
E6
E7
E8
E9
E10
E11
E12
E13
E14
E15
E16E17
E18
E19
E20E21
E22
E23
E24
E25
E26
E27
E28
F1
G1
G2
G3
G4
G5
G6 G7
G8
G9
G10
G11
G12
G13
G14
G15
G16
G17
G18
G19
G20
H1H2
H3
H4H1_1
I1
I2
I3
Escherichia coli D U18997
ARN ribosomique 16S
P formyl-transferase
Dutheil et al 2005 Mol Biol Evol 22:1919

Modèles Markoviens et phylogénie: perspectives
Il existe d'autres modèles, d'autres applications:
reconstruction de séquences ancestrales (Zhang 2006 Nat Genet 38:819)
variations de processus entre sites (Lartillot & Philippe 2004 Mol Biol Evol 21:1095)
variations temporelles du régime sélectif d'un site (Guindon et al 2004 PNAS 101:12957)
prise en compte des contraintes structurales (Kleinman et al 2006 BMC Bioinform 7:326)
…
Passage à l'échelle génomique?
horloge moléculaire relâchée et datations (Thorne & Kishino 2002 Syst. Biol. 51:689)