Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et...

19
1 Evolution Moléculaire et Phylogénie Phylogénie Dominique Mouchiroud dominique.[email protected] Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive Plan du cours I. L’évolution moléculaire I1. Le cadre théorique I2. Les données et les questionnements II. Evolution de quelques traits moléculaires II.1 Composition en Base des Génomes II.2 Taux d’évolution II.3. Taille des génomes III. Conclusion II. Evolution de quelques traits moléculaires II.1 Composition en Base des Génomes - Biais d’usage du code génétique - Biais mutationnel ou modèle neutre - Sélection traductionnelle II. Evolution de quelques traits moléculaires II.1 Composition en Base des Génomes - Biais d’usage du code génétique - Biais mutationnel ou modèle neutre - Sélection traductionnelle

Transcript of Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et...

Page 1: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

1

Evolution Moléculaire et PhylogéniePhylogénie

Dominique [email protected]

Biométrie et Biologie Evolutive, UMR5558, Lyon IBioinformatique et Génomique Evolutive

Plan du cours

I. L’évolution moléculaire I1. Le cadre théoriqueI2. Les données et les questionnements

II. Evolution de quelques traits moléculairesII.1 Composition en Base des GénomesII.2 Taux d’évolutionII.3. Taille des génomes

III. Conclusion

II. Evolution de quelques traits moléculairesII.1 Composition en Base des Génomesp

- Biais d’usage du code génétique- Biais mutationnel ou modèle neutre- Sélection traductionnelle

II. Evolution de quelques traits moléculairesII.1 Composition en Base des Génomesp

- Biais d’usage du code génétique- Biais mutationnel ou modèle neutre- Sélection traductionnelle

Page 2: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

2

Distribution taxonomique de la composition globale en base des génomes

Forte variabilité inter spécifique p qHomogénéité intra génomique

Forte homogénéité inter spécifique

Structuration variableselon les espèces

Sueoka 1964

g p qForte hétérogénéité intra génomique

(structuration en isochores)

Extrait de Li et Graur, 91, Fundamentals of Molecular Evolution

Validation avec les données de génomes complets

riens 1164 génomes procaryotes (sans les archées)

Génomes de vertébrés

Carsonella ruddii 16 5%

bre

de g

enre

s bac

tér

5

10

15

20

?Carsonella ruddii 16,5% Anaeromyxobacter dehalogens 77%

GC %

Nom

b

020 30 40 50 60 70 80

Galtier, 97Fujita MK, GBE, 2011

Hétérogénéité en GC des génomes procaryotes

Di = GCi – GC meani : fenêtre de 100pb non chevauchante

AT rich

GC rich

Bohlin et al BMC Genomics 2010

Distribution gaussienne des Di → somme d’effets indépendants

Hétérogénéité intra génomique en GC des génomes de vertébrés

Page 3: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

3

Mesure du %GC3pour un gène codant

Sous l’hypothèse ,évolution neutre de la position III des codonsrépartition au hasard des gènes codants dans le génomep g g

La fréquence en GC3 des gènes codants est un proxy de la fréquence en GC totale.La distribution du %GC3 constitue une signature génomique de l’espèce.

Approche comparative des signatures génomiques obtenues avec des jeux de gènes orthologues.

Neutralité du %GC3 ?

Lien entre le %GC3 et le %GC des régions non codantes prochesPas de lien entre le %GC3 et le taux de substitution silencieux Ks H0 : Ks =uPas de lien entre le %GC3 et le niveau d’expression du gène

Approche corrélative

Question

La composition en base des génomes est-elle le fruit de pressions sélectives ou d’un processus neutre de fixation des mutations ou des deux processus ?

MODÈLES SÉLECTIONNISTE ET NEUTRALISTE

Escherichia coli

Génomes sous pression de sélection

Escherichia coliBacillus subtilisSaccharomyces cerevisiaeSchizosaccharomyces pombeDictyostelium discoideumDrosophila melanogasterCaenorhabditis elegansArabidopsis thaliana

l lGénomes sous évolution neutre

Mycoplasma capricolumMicrococcus luteus

Streptomyces spHomo sapiensMus musculus

Gallus gallus

II. Evolution de quelques traits moléculairesII.1 Composition en Base des Génomesp

- Biais d’usage du code génétique- Biais mutationnel ou modèle neutre- Sélection traductionnelle du BUCG

Page 4: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

4

Modèle neutre du biais d’usage du code génétique

Biais mutationnel Sueoka, 61

G/C A/Tu

vu/v = (1-p(G+C))/p(G+C) représente le biais mutationnel

Si u/v = 3.0 p(G+C) = 25%u/v = 1 p(G+C) = 50%

p(G+C) = v/(v+u) probabilité de G+C attendue à l’équilibre

u/v 1 p(G C) 50%u/v = 0.33 p(G+C) = 75%

Génomes procaryotes: Biais mutationnel global

L’usage du code à savoir l’utilisationdes codons synonymes est corrélé en termede GC à la fréquence globale en GCdu génome chez certains procaryotes.

Deux exemples:

Composition en GC des génomes des bactériesComposition en GC des génomes des bactériesendosymbiotiques

Composition en GC des génomes de Vertébrés : la structuration en isochores

Pa Pseudomonas aeruginosa

Contenu en G+C des génomes bactériens

Anaeromyxobacter dehalogenansBactérie gram négativeBactérie du sol75% GC5 013Kb – 4346 protéines

Les génomes des bactéries endosymbiotiques sontde plus petites tailles, plus riches en A/T et présententdes taux d’évolution plus élevés.

Mlot Mesorhizobium lotiFumoto, Nar 2002

Wernegreen , Nature Review in Genetics 2002

En vert symbiote primaire

Bu-Ap BuchneraWg Wiggleswpthia

Carsonella ruddii Gamma bactérieEndosymbiote des psyllides16,6% GC159Kb – 182 protéines Nakabachi A, science 2006

Page 5: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

5

Biais mutationnel ou pression sélective ?(Vernegreen and Funk 2004)

• Etude avec le génome de Buchnera aphidicolaEtude avec le génome de Buchnera aphidicolabactérie endosymbiotique obligatoire du puceron. (depuis 200-250 MA)

– Biais mutationnel de GC vers AT associé à une diminution de Ne.(Moran 2002).

– Sélection favorisant les bases AT car les bases G et C seraient contre sélectionnées du fait de leur fort coût métabolique (Rocha et Danchin 2002).

Classification des changementsCAACAGCACCAT

Gln

His

l hiChangements

CAG GTG CAA CAGCAG GTG CAA CAGCAG GTG CAA CAACGG GTG GAA CAGCAG GAG CAT CAGCAG GAG TAT CAGCAG GAG CAT CAG

polymorphiques

2 non synonymes 1 synonyme

2 non synonymes 0 synonymeCAG GAG CAT CAG

CGG GAG CAT CAG0 synonyme

Changements fixés 2 non synonymes

ADN codant et non codant, ET, régions recombinantes, etc

Résultats(1) Polymorphisme entre lignées de Buchnera -U.ambrosiae

AT GC 15 GC AT 18 NS (p < 0,6)

AT GC taux v = 0 0043AT GC taux v 0,0043GC AT taux u = 0,0392

En théorie : %AT attendu à l’équilibre U/U+V = 0,9011Avec les données : le % de AT est de 90,21% en moyenne pour l’ensemble

des gènes codants

Equilibre

(2) Substitutions synonymes entre Buchnera -U.ambrosiae et Buchnera- U.rudbeckiae

AT GC 67 GC AT 51 NS (p < 0,14)

stationnarité

Pas de biais de fixation

Test de la neutralité

= Mutations AT GC Mutations GC AT fixation

GC ATfixation

AT GC

Equilibre

La probabilité de fixation est identique pour

=Substitutions GC AT Substitutions AT GC

GC AT AT GC

p q ples deux patrons de mutation ce qui atteste du processus

neutre de la fixation

Page 6: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

6

Evolution de la composition en GC des bactéries endosymbiotiques

C l tCalyptogenaSymbionte de palourdes

(2) Taux de substitutions très élevés (délétions, substitutions(3) Réduction de la taille du génome (perte de gènes de réparation)

(4) Biais mutationnel vers AT (sélection en faveur du GC)

(1) Relaxation des pressions de sélection (Ne ) Hirokazu et al, extremophiles 2008

5 lignées de bactéries pathogènes clonales avec plusieurs souches

Composition en GC : adaptation ou dérive génétique ?

– Sueoka (61), biais mutationnels différents selon les génomes bactériens,

– Hershberg, PLOS genetics 2010, g, g ,• Existence d’un Biais mutationnel vers AT détection avec le patron de mutation biaisé vers AT• Bactéries Libres / Ne importante : sélection peu agir Augmentation en GC pour répondre à des contraintes environnementales

(T°, oxygène, ….)• Endosymbiotique/Ne faible : la dérive l’emporte

Biais mutationnel vers AT (Vernegreen, 2004)

– Hidelbrand, Plos genetics 2010

• Biais mutationnel sélectionnéCoût métabolique de synthèse des nucléotides (Rocha, Trends in Genetics 2002)

Relation GC et Températureelat on G et empératurechez les procayotes

Page 7: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

7

GC% génomique

N= 224 genres

Pas de relation entre la compositionen GC et la température optimalede croissance et ceci quelque soitl’échelle taxonomique

Température optimale de croissance °C

Galtier, Lobry, 97

l échelle taxonomique.

Pas de relation entre la compositionen Purine (A et G) et la température optimalede croissance.

Thermomètres moléculaires

Nature 2008

Hiroyuki Kimura et al

ARN ribosomaux

Analyse factorielle des correspondances

Archées 15 (4) -7 (3) - 10 (2) – 1(1)Bactérie 5 (4) - 9 (3) - 5 (1)

1. Psychrophile 6 espèces Topt ≤ 202. Mésophile 415 espèces 20 ≤ Topt ≤ 593. Thermophile 16 espèces 59 ≤ Topt ≤ 804. Hyperthermophile 20 espèces Topt ≥ 80

2006

559 514 732 codons559 514 732 codons

Thermomètres moléculaires

Nature 2008

ARN ribosomauxGaltier – Lobry. Mol. Evol. 97

ProtéinesZeldovich et al. Plos Comp Biol 2007

I V Y W R E L

Page 8: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

8

Inférence Paléo environnementRelation GC - température

Chez les procaryotes où l’effet direct de la température peut être mesuré,les différentes études montrent qu’aucune relation directe sur la compositionglobale en base n’a pu être mise en évidence.

En revanche, une relation directe entre la composition en GC au niveau derégion d’ADN impliquée dans la structure secondaire des ARN ribosomaux (loupe) et la température a été clairement identifiée : thermomètre moléculaire 1.

Une relation directe entre la composition en AA (indépendante du GC) et latempérature a également été identifiée : thermomètre moléculaire 2température a également été identifiée : thermomètre moléculaire 2.

Ces relations résultent de pression de sélection pour le maintien de la structuresecondaire de l’ARN (ARNr) ou la conformation de la protéine.

Deux exemples:

Composition en GC des génomes des bactériesComposition en GC des génomes des bactériesendosymbiotiques

Structuration en GC des génomes de Vertébres : isochores

Giorgio Bernardi (1933)g ( )

30

40

50

60

GC

%

0 200 400 600 800 1000kb

100 kb chromosome 19

chromosome 21

Biais mutationnel ?

Procaryotes Vertébrés

Processus neutrede l’évolution du GC

Régions génomiques

Duret, 2009, Annual Review of genomics and human genetics

Page 9: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

9

Variabilité de la composition en GC chez les vertébrés

Fenêtres glissantes (100kb)

>53%46%-53%41%-46%37%-41%

MbCostantini et al, 2006, Genome res.

<37%

CHROMOSOME 21 (Homme)

H1+H2L1+L2 H3H1+H2L1+L2 L1+L2

Modèle de la structuration en isochore

isochore %C+G % total genomic DNA

L1+L2 : 33%-44% 62 % H1+H2 : 44%-51% 31%H3 : 51%-60% 3-5%

H1+H2L1+L2 H3H1+H2L1+L2 L1+L2

>300 kb

Bernardi et al. 1985

L’organisation en isochore est associéeà d’autres composants génomiques

• Densité en gène (Mouchiroud 1991, Zoubak 1996, IHGSC 2001)• Régions riches en GC sont plus riches en gènes codants

• Longueur des introns (Duret 1995 , IHGSC 2001)L i t t d l tit t ill d l é i i h GC• Les introns sont de plus petites tailles dans les régions riches en GC

• Insertion des ETs (Soriano 1983, Zerial 1986, Smit 1999 , IHGSC 2001)• Les Ets de grande tailles commes les LINES sont absentes des régions riches en

GC• Replication (Bernardi, 1998; Watanabe, 2002)

• Les gènes à réplication précose sont plus riches en GC que les gènes à réplication tardive

• Recombinaison (Eyre-Walker 1993 IHGSC 2001)Recombinaison (Eyre Walker 1993, IHGSC 2001)• Les régions qui recombinent beaucoup sont riches en GC

• Banding chromatidien (Saccone 1993, IHGSC 2001)• Les isochores riches en GC se retrouvent préférentiellement dans le bande

télomérique et les bandes réverses (non colorées)• Organisation du noyau (Saccone 2002, Federico 2006)

• Les isochores riches en GC se retrouvent au centre du noyau

Répartition des isochores entre chromosomes Saccone, 2002, gene

Les régions télomériques des chromosomes sont majoritairement riches en GC (isochore très riches en GC de type H3 rouge). Les régions bleus correspondent aux isochores à bas GC de type L1.Les chromosomes les plus courts sont majoritairement composés d’isochores de type H3 (rouge).

Structuration en GC des génomes d’eucaryotesCammarano et al, BMC Genomics, 2009

Page 10: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

10

Costantini M, et al

Forte variabilité du profil génomique en GCentre génomes d’eucaryotes unicellulairesExemple du groupe des plasmodiums (parasite humain)

Des espèces avec des profils génomiques homogènesriches en GC (algues vertes Ostreococcus tauri) oufaibles en GC (amibe Dictyostelium discoideum)

Environnement ?

• Variation du patron mutationnel le long du génome (Filipski 1987, Wolfe et al. 1989, …)– liée à la réplication (Wolfe, 93, Tenzen, 95, Watanabe, 2002, Costantini

2008 PNAS)

Variation spatiale du biais mutationnel ?

Incorporation du BrdU aucours de la réplication- région à réplication précose- région à réplication tardive

GC : Nonoverlapping window of 100 kb

• Variation du patron mutationnel le long du génome (Filipski 1987, Wolfe et al. 1989, …)– liée à la réplication (Wolfe, 93, Tenzen, 95, Watanabe, 2002, Costantini

2008 PNAS)

Variation spatiale du biais mutationnel ?

– le patron de substitution (GC/AT) des séquences non contraintes (pseudogènes, séquences répétées) dépend du contexte en GC/AT (isochore) (Casane 1997, Francino Ochman 1999, IHGSC 2001)

– Test du patron de mutation (GC/AT) avec des données SNP en fonction de la composition locale en GC ( Eyre-Walker, 99, Smith, 2001, Duret et al, 2002)

Distribution des fréquences des allèles GC et AT

0.6

GC ATGC

<5% 5%-15% 15%-50% >50%0

0.2

0.4

Fréquence des allèles dérivées

Proportiondes SNPs

Distribution attendue en l’absence de biais de fixationDistribution attendue en l absence de biais de fixation

NB: la forme de la distribution peut varier selon l’histoire démographique mais est identique pour les allèles GC et AT.

Page 11: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

11

Distribution des fréquences des allèles

AT et GC aux sites silencieux

• 410 SNPs (non codant et ) l f é

<5% 5%-15% 15%-50% >50%0

0.2

0.4

0.6GC-poor genes

allele frequency

proportion of SNP's

synonymes) avec la fréquence des allèles (Cargill et al 1999)

• Chimpanzé, outgroup pour orienter les mutations

• Les allèles GC ségregent à plus fortes fréquences que les allèles

<5% 5%-15% 15%-50% >50%0

0.2

0.4

0.6GC-median genes

GC rich genesAT dans les gènes à haut et moyen GC (test de vraisemblance)

<5% 5%-15% 15%-50% >50%0

0.2

0.4

GC-rich genes

GC

ATGC

Duret et al. Genetics, 2002

0.34

0.35

Autosomes, non-coding regions

AT->GCGC->AT

s dér

ivée

s0.

300.

310.

320.

33

Mea

n D

AF

moy

enne

des

allè

les

N=2,900,000 SNPs introns et régions intergeniques autosomales.

Taux de crossover local (5kb) HapMap

0.02 0.05 0.10 0.20 0.50 1.00 2.00 5.00 10.00

0.29

Local CO rate (5 kb) cM/Mb (Log scale)

Fréq

uenc

e m

Taux de crossing-over, cM/Mb (Log)

Biais de convertion génique (BGC)Evènement moléculaire associé à la Recombinaison méïotique

T

Non-crossing over Crossing over

Hétéroduplex ADN

G

TA

CG

(G->A) (T->C) RéparationMismatch ADN

BGC : Biais de fixation des allèles GC dans les régions fortementrecombinante et dont le mécanisme s’apparente à l’effet d’un distorteur de ségrégation

BGC et évolution du GC• La dynamique de fixation des allèles avec le BGC est identique à celui de

la sélection directionnelle,• Les allèles GC ont une plus grande probabilité de se fixer que les allèles g

AT (Eyre-Walker 1999, Duret et al. 2002, Galtier et al. 2002, Spencer et al. 2006, Galtier 2009),

• Le biais de réparation vers GC a été observé expérimentalement chez les mammifères, Xenope et la levure (biais plus faible),

• le biais de fixation est directement lié au taux de recombinaison de la région génomique

• L’intensité du BGC dépend :p– Du taux de recombinaison local “r”– Du système de reproduction– De la taille efficace de la population “Ne”– De l’intensité du biais de réparation “b”

• Biais de conversion génique : processus non sélectif qui affecte le GC codant et non codant des régions fortement recombinantes.

Page 12: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

12

• Chez les Vertébrés– Biais mutationnel vers AT dans les régions non recombinantes

Composition en GC : adaptation ou dérive génétique ?

– Biais de conversion génique vers GC dans les régions recombinantes– Variation de recombinaison et de GC à des échelles différentes

Vrai chez d’autres organismes ?

Mb

Le gBGC se retrouve dans deLe gBGC se retrouve dans de nombreux génomes eucaryotes.

Il semble également présent dans certaines génomes procaryotes.

II. Evolution de quelques traits moléculairesII.1 Composition en Base des Génomesp

- Biais d’usage du code génétique- Biais mutationnel ou modèle neutre- Sélection traductionnelle

Deux exemples:

Composition en GC des génomes de procaryote,p g p y ,E. Coli et les autres

Composition en GC des génomes d’eucaryotes pluricellulaires, D. Melanogaster et les autres

Page 13: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

13

Biais d ’usage du code chezEscherichia coli

Gènes hautement exprimés61 codons – 35 ARNt – 20AA

Correspondance entre la fréquencedes codons majoritaires et celle des ARNt majoritaires.

Les gènes hautement expriméscodent pour des protéines produitesen grande quantité.

Ikemura 1982, Gouy & Gautier 1982

Permet d’identifier les codons Optimaux.

Le biais d’usage des codons est

Codon N(a) Majoritaire Fobs(b)

Fatt(c)

RSCU(d)

Arg 6 CGC 40% 17% 2.39Leu 6 CUG 50% 17% 2.97Ser 6 AGC 28% 17% 1.66Thr 4 ACC 43% 25% 1.74Pro 4 CCG 53% 25% 2.10

Mesure du biais d’usage du code : RSCU

Exemple : gènes d’E. coli

Le biais d usage des codons est notable (à des degrés divers) pour tous les acides aminés qui ont des codons synonymes ainsi que pour les terminateurs.

Pro 4 CCG 53% 25% 2.10Ala 4 GCG 36% 25% 1.42Gly 4 GGC 40% 25% 1.61Val 4 GUG 37% 25% 1.49Lys 2 AAA 76% 50% 1.53Asn AAC 55% 50% 1.10Gln 2 CAG 65% 50% 1.31His 2 CAU 57% 50% 1.14Glu 2 GAA 69% 50% 1.38Asp 2 GAU 63% 50% 1.26Tyr 2 UAU 57% 50% 1.14Cys 2 UGC 56% 50% 1.11Phe 2 UUU 57% 50% 1.15Ile 3 AUU 51% 33% 1.52Ter 3 UAA 63% 33% 1.89

2

Mesure à l’échelle des gènes,classes de gènes ou génomes.

(a) Nombre de codons synonymes(b) Fréquence observée parmi les codons synonymes(c) Fréquence attendue si tous les codons étaient

utilisés à la même fréquence(d) Relative Synonymous Codon Usage =

fréquence observée / fréquence attendue

Permet d’identifier les codons Favorisés ou évités.

Sélection traductionnelle pour l’usage du code

Sharp et al 2010 Biais mesuré avec RSCU

Variabilité d’usage du code(58 codons)- inter spécifiqueinter spécifique- inter génique

30% des génomesbactériens ne montrent pas de sélection traductionnelleSharp et al NAR 2005

Plotkin et Kudla, 2010,Nat Rev Genet

Page 14: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

14

Impact du biais d’usage du code

K%HE %FE

Biais de composition en acide aminé pour les gènes hautement exprimés

CMW

F HS

Q Y

NP

DT

E

R I

KAV

G

L

%HE-%FE

%ARNt majoritaire

Sharp et Li 87

KS

22 gènes d’ Escherichia colicomparés avec les orthologuesde Salmonella typhimurium.

Codon Adaptation Index

La pression de sélection surl’usage du code s’accompagned’une diminution du taux de substitutions silencieux.

Equilibre sélection-mutation

Gènes fortement exprimés

Usage du code génétique optimaux

Bulmer Genetics 91

Gènes de

Sélection Mutation

Gènes deE. coli4000

Gènes faiblement exprimés

Sélection traductionnelle sur l’usage du code génétique

• Les codons favorisés correspondent aux ARNt majoritaires,• Les gènes qui présentent la fréquence la plus élevée de codons favorisés sont les

Critères

es gè es qu p ése te t a éque ce a p us é evée de codo s avo sés so t esgènes les plus exprimés (ARNm ou protéine),

• La pression de sélection pour maintenir l’usage optimal s’accompagne d’une diminution du taux de substitution silencieux.

Le gain de fitness pour l’organisme est :- une augmentation de la vitesse de traduction (procaryotes)

Nature de la pression sélective

E. coli 3 à 6 X plus rapide (Robinson 84, Irwin, J.B.Chem 95,Rhagavan,PNAS 2012 )

- une augmentation de la fidélité de la traduction (eucaryotes)diminution du coût lié à la correction des erreurs, à la production de protéines non fonctionnelles

Page 15: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

15

Variation de la vitesse de traductionintergénique ou intragénique

• Augmentation du nbre de sites d’initiation de la traduction,• Autocorrélation entre codons synonymes qui utilisent le mêmeAutocorrélation entre codons synonymes qui utilisent le même

ARNt (Cannarozzi et al. 2010),

• Réduction stabilité du messager près du site d’initiation de la traduction (eucaryo/procaryo) (Gu et al, 2010),

• Série de codons non optimaux dans les 90 à 150 premiers nucléotides (Tuller et al,Cell 2010), ralentissement de la traduction,L f é d d ti t l d d l it• La fréquence des codons optimaux est plus grande dans les sites conservés que dans les sites non conservés (Akashi, 95)

Conséquences :

- Pause/accélération de la traduction

Augmentation duniveau d’expressiondu gène hétérologue en controlant le biais d’usage d d d l’ i

Gustafsson, Trends inBiotechnology, 2004

du code de l’organisme hôte

Deux exemples:

Composition en GC des génomes de procaryote,p g p y ,E. Coli et les autres

Composition en GC des génomes d’eucaryotes pluricellulaires, D. Melanogaster et les autres

600

700

N=14148

D. melanogaster600

700

N=17082

C. elegansr

Usage du code chezla drosophile, le nématode et l’arabette

0

100

200

300

400

500

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

N=14148CG3m=65,7± 9,5%

0

100

200

300

400

500

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

CG3m=40,2 ± 8,6%

1400

A th li

GC3 % GC3 %

Nom

bre

Nom

bre

Nom

bre

0

200

400

600

800

1000

1200

0 10 20 30 40 50 60 70 80 90

N=25376CG3m=42,8 ± 6,3%

A. thaliana

GC3 %

Page 16: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

16

Difficultés pour les organismes pluricellulaires

• Mesure du niveau d’expression des gènesQuantité de mRNA produit par gènes codant selon le type de– Quantité de mRNA produit par gènes codant selon le type de tissu, le stade de développement

• Etiquette : EST, Sage• Données haut débit de RNAseq

• Mesure de la fréquence des ARNt majoritaires– Nbre de gènes codant les ARNt utilisé comme proxy de la g p y

fréquence des ARNt

Sélection sur l’usage du code chez Drosophila

Abondance des ARNt >

Lys Lys

Moriyama & Powell(J Mol Evol 1997)

Corrélation avec les niveaux d’expression

codo

n

UUC UUUAAG AAA

(J Mol Evol, 1997)

Bia

is d

e

Expression Duret (PNAS, 1999)

Corrélation avec les taux de substitutions synonymes

0.5

0.6 UnpreferredP f d

Ex:LYSAAG→AAAAAA AAG

Ségrégation des mutations

Biais de codon

Ks

Sharp & Li (J Mol Evol, 1989)Bierne & Eyre-Walker (Genetics, 2003)

0

0.1

0.2

0.3

0.4

<0.25 0.25-0.5 0.5-0.75 >0.75 Fixed

Preferred

Akashi (Gene, 1997)

AAA→AAG

rôle primordial joué par la taille efficace Ne

L’action de la sélection naturelle est fortement conditionnée par la taille efficace des populations.

Quel est l’impact de Ne sur la variabilité compositionnelle au

S < 1/Ne

sein des génomes d’eucaryote ?

Pression de sélection traductionnelle et Ne

• Cutter et al (MBE 2006) ont comparé la sélection traductionnelle sur 37 génomes de nématodes (700 Ma).traductionnelle sur 37 génomes de nématodes (700 Ma).– Génomes avec CG3s moyen de 10% à 63,5%– Espèces ayant des environnements très différents (libre ou

parasite de plantes et mammifères)

– Usage du code avec Fop (ΔRSCU moyen par génome)– Expression à partir des données EST

Page 17: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

17

Biais d’usage du code en relation avec l’expression

ΔRSCU moyenΔRSCU moyen

Les codons optimaux diffèrent selon les génomes, une tendance versune composante phylogénétique, effet de la composante en GC

Facteurs responsables du biais d’usage du code

Le biais d’usage du code (RSCU) s’explique majoritairement par le niveau de transcription des gènes (log(EST)) (génomes à gauche) ou par le biais mutationnel (GC3s) (génomes à droite).

Pression de sélection et NeImpact des modes de viesur les biais d’usage du code.

Les nématodes au régime de vie libre dans le milieu présententlibre dans le milieu présententun biais d’usage du code plus marqué que les nématodes parasites d’hôtes.

Facteurs responsables du biais d’usage du code

Biais mutationnelSélection traductionnelle

Page 18: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

18

Biais de composition associé au biais mutationnel AT/GC identique pour toutes les régions génomiques codantes ou non codantes,

Conclusion : Modèle neutre de l’évolution du GC

toutes les régions génomiques codantes ou non codantes, Pas de lien avec le niveau d’expression des gènes, Taux de mutation différentiel selon la nature des bases – patron de

mutation biaisé AT/GC, Patron de substitution identique au patron de mutation, Biais d’usage du code (GC3s/AT3s) est lié au biais mutationnel (AT/GC), Le biais peut impacter la composition en AA dans les régions où la

i i GC êcomposition en GC est extrême, Evolution sous le modèle neutre lorsque Ne faible

Conclusion : Pression de sélection Conséquence en terme de GC

Fixation des mutations AT/GC biaisée soit pour l’ensemble du génome (procaryote) soit localement (eucaryote supérieur),

P d b i i diffè d d i (à l’é ilib ) Patron de substitution diffère du patron de mutation (à l’équilibre), Biais de composition AT/GC diffère pour les régions génomiques sous

sélection et celles qui ne sont pas sous sélection (biais mutationnel) Taux de substitution silencieux (position III, intron, intergénique) différe du

taux de mutation (sel. Purificatrice /sel. Adaptative), Si sélection traductionnelle, le biais d’usage du code (GC3s/AT3s) diffère

de la composition en AT/GC des régions non codantes, Si sélection traductionnelle, lien fort entre le biais d’usage du code et le

niveau d’expression des gènes (également avec la fréquence des ARNt majoritaires)

Conclusion : modèle non sélectif de l’évolution du GC : le gBGC

Fixation des mutations AT/GC biaisée dans les régions fortement birecombinantes,

les allèles GC ont une plus grande probabilité de se fixer que les allèles AT), La dynamique de fixation des allèles avec le BGC est identique à celui de la

sélection directionnelle, La dynamique de fixation dépend de la taille efficace Ne, le taux de

recombinaison r, le système de reproduction et la valeur du biais de réparation b,

Le gBGC induit un enrichissement en GC dans les régions codantes et non codantes fortement recombinante.

MODÈLES SÉLECTIONNISTE ET NEUTRALISTE

Escherichia coli

Génomes sous pression de sélection

Escherichia coliBacillus subtilisSaccharomyces cerevisiaeSchizosaccharomyces pombeDictyostelium discoideumDrosophila melanogasterCaenorhabditis elegansArabidopsis thaliana

l lGénomes sous évolution neutre

Mycoplasma capricolumMicrococcus luteus

Streptomyces spHomo sapiensMus musculus

Gallus gallus

Page 19: Evolution Moléculaire et Phylogénie - frangun.orgfrangun.org/M2-EEB-cours2.pdf · Biométrie et Biologie Evolutive, UMR5558, Lyon I Bioinformatique et Génomique Evolutive ... L1+L2

19