Phylogénies moléculaires et génomes
Transcript of Phylogénies moléculaires et génomes
1 LESSURPRlSESDELAGiNOMlQUE 1
Phyloghies mol6culaires et
g~nomes
* iquipe phyloge- nie, bio-informa- tique et genome. UMR CNRS 7622. 9. quai Saint- Bernard, case 24, 75252 Paris cedex 05. E-mail : herve. philippe@snv. jussieu.fr
Les astbrisques renvoiant au glossaire p. 53
(1) E. i’uckerkandl, L. Pauling (1965) J. TheoK kO/. 8,
357-366.
(2) CR. Woese (1987) Microbial. Rev. 51,221-271.
(3) R.Y. Stanier et a/. (1970) The Microbial world, Prenctice-Hall Inc.
(4) CR. Woese, G.E. Fox (1977) Pm. NaN Acad. Sci. us~74,5088-5090.
(5) H. Myllykallio et a/. (2000) Science 288,2212-2215.
(6) L.J. Rothschild era/. (1986) Ce1147, 640.
(7) E. Pennisi (1998) Science 280, 672674.
(8) W.F. Doolhtle (1999) Science 284, 2124-2129.
La science de la classification des organismes
n’est pas kpargnke par la Gvolution gfkomique.
Les phyloge’nies mole’culaires, d’abord e’bran-
l&es par l’afflux de nouvelles se’quences, uti-
lisent de’sormais des caraches 2 l’e’chelle du
ge’nome entier.
Q e dicryptage des ginomes est
souvent prtsenti comme la cle de la comprehension des Ptres vivants.
Dans quelle mesure peut-il aider a dt-
miler leurs relations de parenti, ou
phylogenese ? Apres tout, l’histoire de la science phylogenetique est deja riche
en revolutions. La connaissance du
monde vivant et sa classification (on
sait, depuis les travaux de Darwin, qu’elle devrait refleter les relations de
parent6 entre organismes) ont toujours ite etroitement l&s aux avancees tech-
nologiques. L’utilisation du microscope
optique, au XVIIe siicle, a permis de
decouvrir les microorganismes, et, au debut du XXe siecle, de diviser le
monde vivant en deux domaines : les
procaryotes, dont les cellules ne
contiennent pas de noyau (bactiries) et les eucaryotes, a cellules nuclties (tous les autres ttres vivants). Dans les an&es 1960, on acceda aux sequences
des prodines, puis de I’ADN, et l’on prit conscience que l’on disposait la d’un nouveau type d’information phylogenetique (I). Si l’kolution est due
a des mutations aleatoires, de fkquence globalement comparable dans les dif- ferentes especes pour les differents genes, alors le degre de similitude des
sequences de genes homologues doit
indiquer la distance phylogtnetique.
C’est le principe des phyloginies mo-
leculaires. Apres quelques travaux sur les pro-
teines (principalement le cytochro-
me c et l’hemoglobine), un acide nucleique, I’ARN ribosomique 16S,
s’est impost comme marqueur de
reference, du fait de ses nombreux avantages : universalite, forte conser-
vation, grande taille - environ 1 500
nucleotides -, facilite de sequenqage et absence probable de transferts
d’une espece a une autre (2). Apres
l’echec des approches fondles sur les
caracteres morphologiques et biochi- miques (a), une phylogenie des bacti-
ries fondee sur YARN 16s a ainsi ete
obtenue par Carl Woese en 1977. Celle-ci a bouleversi notre vision du vivant, en revelant un nouveau
domaine, les archebacteries (4). Ces
procaryotes, t&s peu Ctudiis a l’epoque, prisentent des caracteris- tiques a la fois de bacttries * clas- siques >> (eubactiries) et d’eucaryotes (5). Les phyloginies moleculaires avaient ainsi prouvt leur efficacite.
Des la fin des annees 1980, un arbre universe1 du vivant fondt sur 1’ARNr
s’est impose comme reference (2).
Cependant, une question fondamen- tale s’est rapidement poke : est-il
raisonnable d’inferer toute l’histoire
du vivant a partir d’un seul gene (6) ?
On attendait done beaucoup du
sequencage des genomes complets, qui fournit une source de don&es
importante pour tester l’arbre ribo- somique. Non seulement le nombre
de marqueurs moltculaires potentiel- lement utilisables pour des analyses
phylogenetiques classiques se trouve
considerablement augment& mais
surtout, la genomique permet d’acci-
der i de nouvelles informations his-
toriques, telles que la structure des g&tomes (ordre des genes ou organi-
sation en operons*) ou le contenu en genes des ginomes (presence ou
absence d’un gene chez une espece).
> Voir I’arbre derriere la fort%
Le r&hat majeur des analyses phylo- genetiques fondles sur des genes diffe-
rents est qu’elles conduisent h des
arbres qui ne s’accordent pas en tous
points : on dit qu’ils sont << incon-
gruents )) (7). Certains auteurs, dont
W. Ford Doolittle a I’universite
Dahousie (Halifax, Canada), n’ont pas hisite de ce fait a rejeter la notion mEme d’arbre universe1 du vivant (8). Deux hypotheses simples ont toute- fois ite avanctes pour expliquer ces
contradictions. L’une d’elles privilegie les problemes methodologiques de construction des arbres (voir Biofutur
[1998] 184, 18-21). En effet, les contradictions pour- raient Ctre dues principalement i des biais de reconstruction (ou artefacts),
tels que l’<< attraction des longues
50 BIOFUTUR 206 l Docembre 2UCC
Arbre universe1 du vivant fond6 sur le contenu en genes des g6nomes. Comme dans I’arbre fond6 sur la s6quence de I’ARNr 16S,
on retmuve la monophylie des trois grands domaines du vivant (eubact&ies, arch&act&ies et eucaryotes) ainsi que des grands phylums
eubactkiens (en jaune) : chacun derive d’un unique an&W qui n’est I’anc&re d’aucun autre.
branches )j, qui fait tmerger trop tbt dans I’arbre les especes i grande vitesse evolutive (9). Cet aspect, pour- tant non nigligeable, ne sera pas d&ail16 ici. L’autre hypothtse invoque des transferts (( horizon- taux R de genes entre especes. Le schima (p. 52) montre qu’il suffit d’un petit nombre de transferts pour rendre les phylogCnies totalement incongruentes. Uexistence d’Cchanges de materiel gPnttique entre procaryotes a t!tt! mise en Cvidence d&s les an&es 1950, dans des cas oti les caractkres acquis - r&is- tance aux antibiotiques, nouvelle voie mitabolique ou facteurs de virulence - confkraient un avantage sClectif Cvident et immtdiat. I1 Ctait admis que ces transferts se faisaient gCnCralement par I’intermCdiaire de plasmides et n’affectaient pas sCrieu- sement le chromosome bactCrien. Tout a changC en 1998, quand Jeffrey G. Lawrence et Howard Ochman des universitks de Pittsburg et Rochester (ctats-Unis), ont demontrb, grice au biais d’utilisation des codons (uoir
l’artick de J.L. Risky et A. Louis,
p. 44j, qu’environ 15 % du chromo- some du colibacille (Escherichia cofi)
Ctait d’origine exogkne rkcente (IO). Ce
cas n’est peut-itre pas reprksentatif,
car l’utilisation des codons est homo- g&e chez certaines bactCries comme Rickettsiu, suggCrant qu’il n’y a eu aucun transfert rCcent (11). UCtude de deux eubactkries hyperther- mophiles rCcemment sCquencCes, Aquifex aeolicus et Thermotoga mari-
tima, fournit toutefois un be1 exemple de l’importance du rble des transferts horizontaux dans 1’Cvolution. Ces bac- tt!ries vivent dans des zones marines a activid giothermique, oti l’eau est por- tCe g plus de 90 “C, en compagnie d’ar- chCbact&ies elles aussi adaptt!es h ces trts hautes tempkratures. Or, entre 16 % et 24 % de leurs g&es sont plus similaires i des g&es d’arch&bact&ies qu’l des g&es d’eubacteries, contre quelques pour cent chez les autres eubactkries (12,~~). Cela sugggre qu’il y a eu un Cchange important de genes dans le cadre de l’adaptation i la vie 2 haute temp&ature. Le plus instructif de ces &changes concerne le g&e de la rkverse gyrase, une prot&ne qui permet un surenroulement positif de I’ADN et semble indispensable pour le prtserver i haute temperature. Une analyse phylog&Ctique a dtmontrt qu’Aqui- fex et Thermotoga avaient acquis ind& pendamment ce gkne g partir de deux archCbactCries t&s CloignCes (14).
L’adaptation g la vie i haute temp&a-
ture, loin d’Ctre un caracdre ancestral, serait ainsi apparue secondairement chez les eubactkries, ce qui remet en cause l’hypoth&e de l’imergence de la vie i haute temphature. La frkquence des transferts horizon- taux a conduit certains chercheurs, comme nous l’avons vu, 1 remettre en cause la notion mCme d’arbre uni- versel, et i lui substituer celle d’un rCseau oti les branches de l’arbre sent connectPes latkralement. En effet, comment dCfinir une phylogCnie si chaque gene raconte une histoire particuliirre ? James A. Lake, i I’uni- versite de Californie (Los Angeles, ctats-Unis) a suggCrP l’existence d’un cc noyau ss de g&es difficilement transfirables, ceux dont les produits ont de nombreuses interactions diffi- tiles a recrCcr dans le nouvel envi- ronnement cellulaire, tels les Cli- ments du ribosome et les autres fac- teurs impliquis dans la traduction (IS). Si ce noyau existe, on pourrait considtrer qu’il reflitte l’histoire des organismes. Bien que la non-transf& rabilite des g&es dont les produits ont de nombreuses interactions soit souvent v&ifiOe (IQ de tels transferts peuvent toutefois se produire s’il existe des pressions de sClection suf- fisamment fortes pour compenser la
(9) J. Felsenstein (1978) Sysr. Zool. 27. 401-410.
(10)J.G. Lawrence, H.Ochman(1998) Proc. Nat/ Acad Sci.
USA95,9413-9417.
(1l)S.G. Anderson et& (1998) Nature 396, 133-140.
(12)G.Oeckert etal. (1998) Nature 392, 353-358.
(13) K.E. Nelson et al. (1999) Nature
399, 323-329.
(14) P. Forterre et a/.
(2000) Trends Ge-
net 16.152-154.
(15) R. Jain eta/.
(1999) Pm. Nat/
Acad Sci USA96,
3801-3806.
(16) M.C. Rivera et al. (1998) Proc. Nat/ Acad. Sci. USA
95.6239-6244.
. . .
BlOFUTUR206 l DBcembre2000 51
(17)C. Brochier eta/ (2000) Trends Genet 16,529-533
(1S)T Asai etal. (1999) Proc Nat/ Acad. Sci. USA 96, 1971-1976.
(19)M. Huynen eta/ (1999) Science286, 1443.
(20)D. Moreira etal (2000) Nature405, 69-72.
. . . perte d’efficaciti des interactions du
produir du gkne nouvellement acquis. C’est le cas du gkne ~~514, qui code une protkine ribosomique impliquee dans de nombreuses inter- actions, et qui est en outre la cible de plusieurs antibiotiques. La phylogk- nie montre que ce gkne a CtC transfk- rC de nombreuses fois. Le nouveau spectre de rksistance aux anti- biotiques confk& par l’intkgration d’une version exogkne de res14 est sans doute suffisamment avantageux pour compenser la moins bonne effi-
(21)A. Rokas, PWH. Holland (2000) Trends Em/. Evol 15,454-459.
(22)R.L.Tatusov efal. (1996) Cur,: Biol6. 279-291.
Vraie phylogkie
1
(23)M. Nikaldo et al. (1999) Pfoc. Nat/ Acad. Sci. USA 96,10261-10266.
(24)J. Castresana et a/. (1998) Proc. Nat/ Acad. Sci. USA $ 95, 3703-3707. z
E
I!’
A
F B
F
C
D
E
1 LESSURPRISES DE LAGiNOMlQUE ]
elles-m;mes, g&e g une nouvelle mkthode d’analyse. En effet, la connaissance des gCnomes entiers permet de savoir avec certitude si un g6ne prksent chez une espke I’est aussi chez une autre espke. Si la notion d’arbre phylogCnCtique est valide, on s’attend g ce que deux espkces proches parentes aient beau- coup plus de g&es en commun que deux espkces 6loignCes. Au contraire, si elle est dkpourvue de sens, on ne s’attend g aucune structure particu- like. Berend Snel et ses collabora-
Phylogknie fondle sur le gene 1
L-
B
A
C
D
E
F
Phylogknie fondbe sur le gene 2
Au cows de l'&olution,I'esp8ce C a donnb son gene1 BI'esp&ce A (flhche
rouge)etl'esp(?ce B a don&son gi?ne2Bl'esp&e F (fli?chebleue). Deux
transferts ont suffi pour rendre incongruentes les phylogbnies fondles
sur les genes 1 et 2, et aucune ne permet de retrouver la vraie phylogbnie.
cacitC de la traduction, due aux moins bonnes interactions (17). De m&me, une expkrience montre qu’il est possible de remplacer I’ARN ribosomique d’Escherichia coli par celui d’une bactkrie relativement 6loignCe (Protetrs) sans effet phino- typique majeur (W), ce qui jette un doute sur I’hypothkse d’absence de transfert de I’ARNr.
> Existe-t-il un arbre universe1 ?
Dans ce contexte, I’arbre universe1 fond6 sur les seules skquences d’ARN ribosomique a-t-i1 encore un sens ? Dans un premier temps, I’analyse des gknomes entiers, en produisant des skquences g I’origine d’arbres incon- gruents et en rCvClant I’importance du phinomkne de transfert, a paru le bouleverser, voire lui enlever sa base thkorique. Nkanmoins, l’arbre ribo- somique universe1 a ktC fortement valid6 par les don&es gknomiques
52 BlOFUTUR206 l O&xmbre2000
teurs g Heidelberg (Allemagne) ont utilisk comme mesure de la distance Cvolutive le contenu en gknes (c’est-i- dire le nombre de gknes partag& par deux espkes) et l’arbre phylogCnC- tique obtenu est itonnamment simi- laire g l’arbre ribosomique (19) (uoir la figure e. 51). La monophylie des trois domaines du vivant est ainsi retrouGe, c’est-&dire que I’ensemble des espkes de chaque domaine a bien un ancCtre commun qui n’est ancttre d’aucune autre espke. Cette robus- tesse de I’arbre implique que, mtme s’il existe un tchange intensif de gknes entre organismes (principale- ment entre procaryotes), une trace de l’histoire Cvolutive subsiste. La monophylie des grands phylums” procaryotiques est Cgalement retrou- vCe, ce qui constitue un argument en faveur de la notion d’espke chez les procaryotes. Cependant, les relations de parenti entre les phylums sont peu soutenues statistiquement, comme
dans la majorit des phyloginies, ce qui refkte une absence de signal phy- logkrktique, probablement due i une rapide diversification des phylums. Finalement, I’enseignement de I’analy- se des gknomes entiers est double : si I’histoire de chaque g&e, en raison de transferts horizontaux, est plus ou moins proche de celle de l’organisme, en moyenne, I’histoire des gknes (c’est- g-dire du gCnome) est bien la mime que celle de I’organisme, et I’exploita- tion de I’extraordinaire quantitC d’in- formations des gknomes devrait per- mettre I’amtlioration de notre connaissance de I’histoire du vivant.
> Des genes g la queue leu leu
Une premike approche pour exploi- ter ces informations genomiques consiste B utiliser les mkthodes clas- siques de phylogknie, mais en les appliquant i des skquences beaucoup plus longues, obtenues simplement en mettant bout 1 bout les diffkrents g&es pour augmenter le pouvoir ksolutif. La proche parent6 entre les algues rouges et les plantes vertes a ainsi pu 6tre solidement Ctablie, grice 1 la fusion d’une dizaine de kquences prot&ques dCrivCes de genes nuclCaires, ce qui a mis fin i une polCmique sur I’origine des chloro- plastes : un unique CvPnement d’endo- symbiose * d’une cyanobactkrie dans un eucaryote primitif a bien donnP naissance aux chloroplastes, car il est trks improbable qu’algues rouges et plantes vertes aient acquis indkpen- damment ces organites aprks avoir divergk (20). En revanche, d’autres fusions, comme celles de toutes les protkines ribosomiques (environ 10 000 acides aminks), n’ont pas per- mis d’augmenter la rksolution de la phylogtnie des eubacdries, illustrant la difficult6 du probkme. Une seconde approche utilise des caractkes gCnomiques plus intkgrks, comme l’ordre des g&nes le long des chromosomes. En effet, ces carac- &es ont une trks faible probabilitC de changer plusieurs fois indkpen- damment vers le mCme Ctat (conver- gence) et contiennent done une trks bonne information historique, contrairement aux bases des sequences d’ADN qui n’existent que dans quatre Ctats et pour lesquelles les risques de convergence sont plus grands (21). En revanche, ces donnkes, contrairement aux skquences, ne peuvent pas encore itre analyskes de manike statistique. I1 s’agit done juste de savoir si la mime structure
complexe est partagee ou non. Don- nons quelques exemples.
L’ordre des genes dans le genome mitochondrial est tres conserve chez la plupart des animaux. Chez les ver- tebres, il ne differe que par la posi- tion de quelques genes d’ARN de transfert. Chez les arthropodes, la situation est plus diverse : I’ordre des genes est le meme chez les insectes et les crustaces, mais differe chez les myriapodes (mille-pattes) et les autres arthropodes. Ainsi, les insectes et les myriapodes ne seraient pas proches parents, et ne devraient leur ressemblance qu’au fait qu’ils se sont adapt& de maniere convergente a la vie terrestre. Si I’on consider-e a present le genome nucltaire, on peut esperer que les nombreuses zones de syntenie” observies chez les meta- zoaires, et particulierement chez les vertibres, fourniront des informa- tions precieuses. Quant au genome des procaryotes, les remaniements y sont tres frequents, affectant mime les operons”, et, pour I’instant, l’ordre des genes n’a pas permis de resoudre de question importante (22).
Les positions des introns (sequences non codantes intercalees dans la
sequence codante des genes euca- ryotes) ou des elements transpo- sables fournissent aussi de bonnes informations, car, si les mCmes pertes peuvent survenir indepen- damment dans differents groupes, les acquisitions ont de tres grandes chances d’itre uniques. Une telle approche a permis d’eclairer I’origi- ne des c&aces, que l’on placait habi- tuellement pres du groupe des carni- vores. Plusieurs retroposons” occu- pent exactement les memes places chez les &aces et chez l’hippopota- me, qui serait done le plus proche parent terrestre de ces mammiferes aquatiques (23). Rarmi les autres caracteres genomiques utilisables, on peut titer les variations du code genetique - les mimes se retrouvent par exemple chez les Pchinodermes (Ptoile de mer, oursins) et les hemi- chordes (animaux vermiformes)
(24) - OLI les duplications geniques partagees. Ainsi, la genomique fait souffler un vent nouveau sur une science tres
ancienne, la classification des orga- nismes. Meme si les methodes d’ana- lyse phylogenetique specialement dediees aux ginomes complets ne sont pas encore totalement maitri- sees, I’afflux de nouvelles donnees bouleverse tout autant notre concep- tion de I’histoire du vivant qu’elle I’affine ou la confirme. 0
P our I’essentiel, I’obtention de la sequence du genome d’une esp&ce ne
depend que des moyens materiels et financiers investis. Canalyse in si/i-
co de la sequence obtenue est gen&alement plus delicate. Si les pro-
grammes informatiques utilises pour la recherche des regions codantes
(open reading frames, ORF) semblent en detecter p&s de 99 % chez les
eucaryotes, I’annotation des ORF, qui consiste a attribuer une fonction a la
proteine correspondante, pose en revanche de nombreux probkws. La
methode la plus couramment employee est fond&s sur la recherche de simi-
larite globale avec des proteines de fonction connue, au rnoyen de pro-
grammes informatiques de type BLAST*. En effet, des proteines homo-
logues - c’est-a-dire de&ant d’un ancetre commun, ce que I’on suppose si
leurs sequences sont suffisamment similaires - ont souvent la meme fonc-
tion et sont alors dites analogues. On peut ainsi annoter des sequences de
proche en proche, au risque de propager d’eventuelles erreurs (voir /‘article
de J.L. Risler et A. Louis, p. 44).
Or les causes d’erreur ne manquent pas : il existe ainsi des familles multige-
niques dans lesquelles les differentes copies, bien que chimiquement sem-
blables, ont des fonctions differentes (hemoglobine/myoglobine, par
exemple). En outre, la sequence la plus similaire a I’ORF etudiee n’est pas
toujours la plus proche parente de cette ORF sur un arbre phylogenetique,
du fait de vitesses d’evolution differentes dans les differentes branches. Par
exemple, une sequence A peut avoir diverge rapidement de sa plus proche
parente B, laquelle risque de ressembler davantage a une sequence C pour-
tant plus lointainement apparent&s. II serait done plus judicieux, pour affiner
I’annotation, d’utiliser l’information fonctionnelle de la sequence la plus proche
phylogenetiquement, plutot que celle de la sequence la plus similaire (1).
Meme si cette regle est generalement vraie, il y a de nombreuses excep-
tions, comme le montre I’exemple de la lactate et de la malate deshydroge-
nase (LDH et MDH respectivement) d’un eucaryote unicellulaire, 7iiic/?omo-
nas vagina/is (en medaillon). Les LDH et MDH forment deux ensembles
monophyletiques qui ont diverge tot dans l’evolution du vivant (voir /a tigu- re). Or, dans cet arbre, la LDH de 5: vagina/is (caracteris&s comme lactate
deshydrogenase par son activite biochimique) emerge au milieu des MDH
comme le groupe frere de la MDH de 7: vagina/is (2). Cela implique qu’il y a
eu duplication rkente du gene de la MDH (fkhe), suivie d’un changement
de fonction (etoile). Que ce soit sur la base de la similarite ou de la phyio-
genie, et dans I’ignorance de son activite biochimique, on await annote la
LDH de 5: vagina/is comme MDH. Canalyse in silica n’est done pas la pana-
c&e, mais plutot une aide pour guider les experiences in vi&o. w
(1) J.A. Eisen (1998) Genome Res. 8, 163-167.
(2) G. Wu (1999) Proc. AktlAcad. Sci. lJSA96, 62856290.
Lactate dbshydrogrinases (LDH)
-4 Ma! 371~ dc?s:~ydrog&ases (MDH)
-- 4
? I__.__-_ i-- ____.._ _--___. C!lbmyd/a ti-achomatis 2
!
.~~~ 1 ~~~~~~_i.. _ __lc-__ Trichomonas vagina/is LDH
i ..--..-. --... TrkY~omo~ms vagmaiis Muff
I..... ~._ ;l/lvcobaclenum bous
1
I_-_-_ Demococcus radlodurans i- ! -----i;_~__~__m___
I.....{
CaerJorhabdiiis eiegans
_.__ Homo sapiens L-....
L_ Drosoph,‘la melanogaster
BIOFLJTUR 206 l Decembre 2000 53