Phylogénies moléculaires et génomes

4
1 LESSURPRlSESDELAGiNOMlQUE 1 Phyloghies mol6culaires et g~nomes * iquipe phyloge- nie, bio-informa- tique et genome. UMR CNRS 7622. 9. quai Saint- Bernard, case 24, 75252 Paris cedex 05. E-mail : herve. philippe@snv. jussieu.fr Les astbrisques renvoiant au glossaire p. 53 (1) E. i’uckerkandl, L. Pauling (1965) J. TheoK kO/. 8, 357-366. (2) CR. Woese (1987) Microbial. Rev. 51,221-271. (3) R.Y. Stanier et a/. (1970) The Microbial world, Prenctice-Hall Inc. (4) CR. Woese, G.E. Fox (1977) Pm. NaN Acad. Sci. us~74,5088-5090. (5) H. Myllykallio et a/. (2000) Science 288,2212-2215. (6) L.J. Rothschild era/. (1986) Ce1147, 640. (7) E. Pennisi (1998) Science 280, 672674. (8) W.F. Doolhtle (1999) Science 284, 2124-2129. La science de la classification des organismes n’est pas kpargnke par la Gvolution gfkomique. Les phyloge’nies mole’culaires, d’abord e’bran- l&es par l’afflux de nouvelles se’quences, uti- lisent de’sormais des caraches 2 l’e’chelle du ge’nome entier. Q e dicryptage des ginomes est souvent prtsenti comme la cle de la comprehension des Ptres vivants. Dans quelle mesure peut-il aider a dt- miler leurs relations de parenti, ou phylogenese ? Apres tout, l’histoire de la science phylogenetique est deja riche en revolutions. La connaissance du monde vivant et sa classification (on sait, depuis les travaux de Darwin, qu’elle devrait refleter les relations de parent6 entre organismes) ont toujours ite etroitement l&s aux avancees tech- nologiques. L’utilisation du microscope optique, au XVIIe siicle, a permis de decouvrir les microorganismes, et, au debut du XXe siecle, de diviser le monde vivant en deux domaines : les procaryotes, dont les cellules ne contiennent pas de noyau (bactiries) et les eucaryotes, a cellules nuclties (tous les autres ttres vivants). Dans les an&es 1960, on acceda aux sequences des prodines, puis de I’ADN, et l’on prit conscience que l’on disposait la d’un nouveau type d’information phylogenetique (I). Si l’kolution est due a des mutations aleatoires, de fkquence globalement comparable dans les dif- ferentes especes pour les differents genes, alors le degre de similitude des sequences de genes homologues doit indiquer la distance phylogtnetique. C’est le principe des phyloginies mo- leculaires. Apres quelques travaux sur les pro- teines (principalement le cytochro- me c et l’hemoglobine), un acide nucleique, I’ARN ribosomique 16S, s’est impost comme marqueur de reference, du fait de ses nombreux avantages : universalite, forte conser- vation, grande taille - environ 1 500 nucleotides -, facilite de sequenqage et absence probable de transferts d’une espece a une autre (2). Apres l’echec des approches fondles sur les caracteres morphologiques et biochi- miques (a), une phylogenie des bacti- ries fondee sur YARN 16s a ainsi ete obtenue par Carl Woese en 1977. Celle-ci a bouleversi notre vision du vivant, en revelant un nouveau domaine, les archebacteries (4). Ces procaryotes, t&s peu Ctudiis a l’epoque, prisentent des caracteris- tiques a la fois de bacttries * clas- siques >> (eubactiries) et d’eucaryotes (5). Les phyloginies moleculaires avaient ainsi prouvt leur efficacite. Des la fin des annees 1980, un arbre universe1 du vivant fondt sur 1’ARNr s’est impose comme reference (2). Cependant, une question fondamen- tale s’est rapidement poke : est-il raisonnable d’inferer toute l’histoire du vivant a partir d’un seul gene (6) ? On attendait done beaucoup du sequencage des genomes complets, qui fournit une source de don&es importante pour tester l’arbre ribo- somique. Non seulement le nombre de marqueurs moltculaires potentiel- lement utilisables pour des analyses phylogenetiques classiques se trouve considerablement augment& mais surtout, la genomique permet d’acci- der i de nouvelles informations his- toriques, telles que la structure des g&tomes (ordre des genes ou organi- sation en operons*) ou le contenu en genes des ginomes (presence ou absence d’un gene chez une espece). > Voir I’arbre derriere la fort% Le r&hat majeur des analyses phylo- genetiques fondles sur des genes diffe- rents est qu’elles conduisent h des arbres qui ne s’accordent pas en tous points : on dit qu’ils sont << incon- gruents )) (7). Certains auteurs, dont W. Ford Doolittle a I’universite Dahousie (Halifax, Canada), n’ont pas hisite de ce fait a rejeter la notion mEme d’arbre universe1 du vivant (8). Deux hypotheses simples ont toute- fois ite avanctes pour expliquer ces contradictions. L’une d’elles privilegie les problemes methodologiques de construction des arbres (voir Biofutur [1998] 184, 18-21). En effet, les contradictions pour- raient Ctre dues principalement i des biais de reconstruction (ou artefacts), tels que l’<<attraction des longues 50 BIOFUTUR 206 l Docembre 2UCC

Transcript of Phylogénies moléculaires et génomes

Page 1: Phylogénies moléculaires et génomes

1 LESSURPRlSESDELAGiNOMlQUE 1

Phyloghies mol6culaires et

g~nomes

* iquipe phyloge- nie, bio-informa- tique et genome. UMR CNRS 7622. 9. quai Saint- Bernard, case 24, 75252 Paris cedex 05. E-mail : herve. philippe@snv. jussieu.fr

Les astbrisques renvoiant au glossaire p. 53

(1) E. i’uckerkandl, L. Pauling (1965) J. TheoK kO/. 8,

357-366.

(2) CR. Woese (1987) Microbial. Rev. 51,221-271.

(3) R.Y. Stanier et a/. (1970) The Microbial world, Prenctice-Hall Inc.

(4) CR. Woese, G.E. Fox (1977) Pm. NaN Acad. Sci. us~74,5088-5090.

(5) H. Myllykallio et a/. (2000) Science 288,2212-2215.

(6) L.J. Rothschild era/. (1986) Ce1147, 640.

(7) E. Pennisi (1998) Science 280, 672674.

(8) W.F. Doolhtle (1999) Science 284, 2124-2129.

La science de la classification des organismes

n’est pas kpargnke par la Gvolution gfkomique.

Les phyloge’nies mole’culaires, d’abord e’bran-

l&es par l’afflux de nouvelles se’quences, uti-

lisent de’sormais des caraches 2 l’e’chelle du

ge’nome entier.

Q e dicryptage des ginomes est

souvent prtsenti comme la cle de la comprehension des Ptres vivants.

Dans quelle mesure peut-il aider a dt-

miler leurs relations de parenti, ou

phylogenese ? Apres tout, l’histoire de la science phylogenetique est deja riche

en revolutions. La connaissance du

monde vivant et sa classification (on

sait, depuis les travaux de Darwin, qu’elle devrait refleter les relations de

parent6 entre organismes) ont toujours ite etroitement l&s aux avancees tech-

nologiques. L’utilisation du microscope

optique, au XVIIe siicle, a permis de

decouvrir les microorganismes, et, au debut du XXe siecle, de diviser le

monde vivant en deux domaines : les

procaryotes, dont les cellules ne

contiennent pas de noyau (bactiries) et les eucaryotes, a cellules nuclties (tous les autres ttres vivants). Dans les an&es 1960, on acceda aux sequences

des prodines, puis de I’ADN, et l’on prit conscience que l’on disposait la d’un nouveau type d’information phylogenetique (I). Si l’kolution est due

a des mutations aleatoires, de fkquence globalement comparable dans les dif- ferentes especes pour les differents genes, alors le degre de similitude des

sequences de genes homologues doit

indiquer la distance phylogtnetique.

C’est le principe des phyloginies mo-

leculaires. Apres quelques travaux sur les pro-

teines (principalement le cytochro-

me c et l’hemoglobine), un acide nucleique, I’ARN ribosomique 16S,

s’est impost comme marqueur de

reference, du fait de ses nombreux avantages : universalite, forte conser-

vation, grande taille - environ 1 500

nucleotides -, facilite de sequenqage et absence probable de transferts

d’une espece a une autre (2). Apres

l’echec des approches fondles sur les

caracteres morphologiques et biochi- miques (a), une phylogenie des bacti-

ries fondee sur YARN 16s a ainsi ete

obtenue par Carl Woese en 1977. Celle-ci a bouleversi notre vision du vivant, en revelant un nouveau

domaine, les archebacteries (4). Ces

procaryotes, t&s peu Ctudiis a l’epoque, prisentent des caracteris- tiques a la fois de bacttries * clas- siques >> (eubactiries) et d’eucaryotes (5). Les phyloginies moleculaires avaient ainsi prouvt leur efficacite.

Des la fin des annees 1980, un arbre universe1 du vivant fondt sur 1’ARNr

s’est impose comme reference (2).

Cependant, une question fondamen- tale s’est rapidement poke : est-il

raisonnable d’inferer toute l’histoire

du vivant a partir d’un seul gene (6) ?

On attendait done beaucoup du

sequencage des genomes complets, qui fournit une source de don&es

importante pour tester l’arbre ribo- somique. Non seulement le nombre

de marqueurs moltculaires potentiel- lement utilisables pour des analyses

phylogenetiques classiques se trouve

considerablement augment& mais

surtout, la genomique permet d’acci-

der i de nouvelles informations his-

toriques, telles que la structure des g&tomes (ordre des genes ou organi-

sation en operons*) ou le contenu en genes des ginomes (presence ou

absence d’un gene chez une espece).

> Voir I’arbre derriere la fort%

Le r&hat majeur des analyses phylo- genetiques fondles sur des genes diffe-

rents est qu’elles conduisent h des

arbres qui ne s’accordent pas en tous

points : on dit qu’ils sont << incon-

gruents )) (7). Certains auteurs, dont

W. Ford Doolittle a I’universite

Dahousie (Halifax, Canada), n’ont pas hisite de ce fait a rejeter la notion mEme d’arbre universe1 du vivant (8). Deux hypotheses simples ont toute- fois ite avanctes pour expliquer ces

contradictions. L’une d’elles privilegie les problemes methodologiques de construction des arbres (voir Biofutur

[1998] 184, 18-21). En effet, les contradictions pour- raient Ctre dues principalement i des biais de reconstruction (ou artefacts),

tels que l’<< attraction des longues

50 BIOFUTUR 206 l Docembre 2UCC

Page 2: Phylogénies moléculaires et génomes

Arbre universe1 du vivant fond6 sur le contenu en genes des g6nomes. Comme dans I’arbre fond6 sur la s6quence de I’ARNr 16S,

on retmuve la monophylie des trois grands domaines du vivant (eubact&ies, arch&act&ies et eucaryotes) ainsi que des grands phylums

eubactkiens (en jaune) : chacun derive d’un unique an&W qui n’est I’anc&re d’aucun autre.

branches )j, qui fait tmerger trop tbt dans I’arbre les especes i grande vitesse evolutive (9). Cet aspect, pour- tant non nigligeable, ne sera pas d&ail16 ici. L’autre hypothtse invoque des transferts (( horizon- taux R de genes entre especes. Le schima (p. 52) montre qu’il suffit d’un petit nombre de transferts pour rendre les phylogCnies totalement incongruentes. Uexistence d’Cchanges de materiel gPnttique entre procaryotes a t!tt! mise en Cvidence d&s les an&es 1950, dans des cas oti les caractkres acquis - r&is- tance aux antibiotiques, nouvelle voie mitabolique ou facteurs de virulence - confkraient un avantage sClectif Cvident et immtdiat. I1 Ctait admis que ces transferts se faisaient gCnCralement par I’intermCdiaire de plasmides et n’affectaient pas sCrieu- sement le chromosome bactCrien. Tout a changC en 1998, quand Jeffrey G. Lawrence et Howard Ochman des universitks de Pittsburg et Rochester (ctats-Unis), ont demontrb, grice au biais d’utilisation des codons (uoir

l’artick de J.L. Risky et A. Louis,

p. 44j, qu’environ 15 % du chromo- some du colibacille (Escherichia cofi)

Ctait d’origine exogkne rkcente (IO). Ce

cas n’est peut-itre pas reprksentatif,

car l’utilisation des codons est homo- g&e chez certaines bactCries comme Rickettsiu, suggCrant qu’il n’y a eu aucun transfert rCcent (11). UCtude de deux eubactkries hyperther- mophiles rCcemment sCquencCes, Aquifex aeolicus et Thermotoga mari-

tima, fournit toutefois un be1 exemple de l’importance du rble des transferts horizontaux dans 1’Cvolution. Ces bac- tt!ries vivent dans des zones marines a activid giothermique, oti l’eau est por- tCe g plus de 90 “C, en compagnie d’ar- chCbact&ies elles aussi adaptt!es h ces trts hautes tempkratures. Or, entre 16 % et 24 % de leurs g&es sont plus similaires i des g&es d’arch&bact&ies qu’l des g&es d’eubacteries, contre quelques pour cent chez les autres eubactkries (12,~~). Cela sugggre qu’il y a eu un Cchange important de genes dans le cadre de l’adaptation i la vie 2 haute temp&ature. Le plus instructif de ces &changes concerne le g&e de la rkverse gyrase, une prot&ne qui permet un surenroulement positif de I’ADN et semble indispensable pour le prtserver i haute temperature. Une analyse phylog&Ctique a dtmontrt qu’Aqui- fex et Thermotoga avaient acquis ind& pendamment ce gkne g partir de deux archCbactCries t&s CloignCes (14).

L’adaptation g la vie i haute temp&a-

ture, loin d’Ctre un caracdre ancestral, serait ainsi apparue secondairement chez les eubactkries, ce qui remet en cause l’hypoth&e de l’imergence de la vie i haute temphature. La frkquence des transferts horizon- taux a conduit certains chercheurs, comme nous l’avons vu, 1 remettre en cause la notion mCme d’arbre uni- versel, et i lui substituer celle d’un rCseau oti les branches de l’arbre sent connectPes latkralement. En effet, comment dCfinir une phylogCnie si chaque gene raconte une histoire particuliirre ? James A. Lake, i I’uni- versite de Californie (Los Angeles, ctats-Unis) a suggCrP l’existence d’un cc noyau ss de g&es difficilement transfirables, ceux dont les produits ont de nombreuses interactions diffi- tiles a recrCcr dans le nouvel envi- ronnement cellulaire, tels les Cli- ments du ribosome et les autres fac- teurs impliquis dans la traduction (IS). Si ce noyau existe, on pourrait considtrer qu’il reflitte l’histoire des organismes. Bien que la non-transf& rabilite des g&es dont les produits ont de nombreuses interactions soit souvent v&ifiOe (IQ de tels transferts peuvent toutefois se produire s’il existe des pressions de sClection suf- fisamment fortes pour compenser la

(9) J. Felsenstein (1978) Sysr. Zool. 27. 401-410.

(10)J.G. Lawrence, H.Ochman(1998) Proc. Nat/ Acad Sci.

USA95,9413-9417.

(1l)S.G. Anderson et& (1998) Nature 396, 133-140.

(12)G.Oeckert etal. (1998) Nature 392, 353-358.

(13) K.E. Nelson et al. (1999) Nature

399, 323-329.

(14) P. Forterre et a/.

(2000) Trends Ge-

net 16.152-154.

(15) R. Jain eta/.

(1999) Pm. Nat/

Acad Sci USA96,

3801-3806.

(16) M.C. Rivera et al. (1998) Proc. Nat/ Acad. Sci. USA

95.6239-6244.

. . .

BlOFUTUR206 l DBcembre2000 51

Page 3: Phylogénies moléculaires et génomes

(17)C. Brochier eta/ (2000) Trends Genet 16,529-533

(1S)T Asai etal. (1999) Proc Nat/ Acad. Sci. USA 96, 1971-1976.

(19)M. Huynen eta/ (1999) Science286, 1443.

(20)D. Moreira etal (2000) Nature405, 69-72.

. . . perte d’efficaciti des interactions du

produir du gkne nouvellement acquis. C’est le cas du gkne ~~514, qui code une protkine ribosomique impliquee dans de nombreuses inter- actions, et qui est en outre la cible de plusieurs antibiotiques. La phylogk- nie montre que ce gkne a CtC transfk- rC de nombreuses fois. Le nouveau spectre de rksistance aux anti- biotiques confk& par l’intkgration d’une version exogkne de res14 est sans doute suffisamment avantageux pour compenser la moins bonne effi-

(21)A. Rokas, PWH. Holland (2000) Trends Em/. Evol 15,454-459.

(22)R.L.Tatusov efal. (1996) Cur,: Biol6. 279-291.

Vraie phylogkie

1

(23)M. Nikaldo et al. (1999) Pfoc. Nat/ Acad. Sci. USA 96,10261-10266.

(24)J. Castresana et a/. (1998) Proc. Nat/ Acad. Sci. USA $ 95, 3703-3707. z

E

I!’

A

F B

F

C

D

E

1 LESSURPRISES DE LAGiNOMlQUE ]

elles-m;mes, g&e g une nouvelle mkthode d’analyse. En effet, la connaissance des gCnomes entiers permet de savoir avec certitude si un g6ne prksent chez une espke I’est aussi chez une autre espke. Si la notion d’arbre phylogCnCtique est valide, on s’attend g ce que deux espkces proches parentes aient beau- coup plus de g&es en commun que deux espkces 6loignCes. Au contraire, si elle est dkpourvue de sens, on ne s’attend g aucune structure particu- like. Berend Snel et ses collabora-

Phylogknie fondle sur le gene 1

L-

B

A

C

D

E

F

Phylogknie fondbe sur le gene 2

Au cows de l'&olution,I'esp8ce C a donnb son gene1 BI'esp&ce A (flhche

rouge)etl'esp(?ce B a don&son gi?ne2Bl'esp&e F (fli?chebleue). Deux

transferts ont suffi pour rendre incongruentes les phylogbnies fondles

sur les genes 1 et 2, et aucune ne permet de retrouver la vraie phylogbnie.

cacitC de la traduction, due aux moins bonnes interactions (17). De m&me, une expkrience montre qu’il est possible de remplacer I’ARN ribosomique d’Escherichia coli par celui d’une bactkrie relativement 6loignCe (Protetrs) sans effet phino- typique majeur (W), ce qui jette un doute sur I’hypothkse d’absence de transfert de I’ARNr.

> Existe-t-il un arbre universe1 ?

Dans ce contexte, I’arbre universe1 fond6 sur les seules skquences d’ARN ribosomique a-t-i1 encore un sens ? Dans un premier temps, I’analyse des gknomes entiers, en produisant des skquences g I’origine d’arbres incon- gruents et en rCvClant I’importance du phinomkne de transfert, a paru le bouleverser, voire lui enlever sa base thkorique. Nkanmoins, l’arbre ribo- somique universe1 a ktC fortement valid6 par les don&es gknomiques

52 BlOFUTUR206 l O&xmbre2000

teurs g Heidelberg (Allemagne) ont utilisk comme mesure de la distance Cvolutive le contenu en gknes (c’est-i- dire le nombre de gknes partag& par deux espkes) et l’arbre phylogCnC- tique obtenu est itonnamment simi- laire g l’arbre ribosomique (19) (uoir la figure e. 51). La monophylie des trois domaines du vivant est ainsi retrouGe, c’est-&dire que I’ensemble des espkes de chaque domaine a bien un ancCtre commun qui n’est ancttre d’aucune autre espke. Cette robus- tesse de I’arbre implique que, mtme s’il existe un tchange intensif de gknes entre organismes (principale- ment entre procaryotes), une trace de l’histoire Cvolutive subsiste. La monophylie des grands phylums” procaryotiques est Cgalement retrou- vCe, ce qui constitue un argument en faveur de la notion d’espke chez les procaryotes. Cependant, les relations de parenti entre les phylums sont peu soutenues statistiquement, comme

dans la majorit des phyloginies, ce qui refkte une absence de signal phy- logkrktique, probablement due i une rapide diversification des phylums. Finalement, I’enseignement de I’analy- se des gknomes entiers est double : si I’histoire de chaque g&e, en raison de transferts horizontaux, est plus ou moins proche de celle de l’organisme, en moyenne, I’histoire des gknes (c’est- g-dire du gCnome) est bien la mime que celle de I’organisme, et I’exploita- tion de I’extraordinaire quantitC d’in- formations des gknomes devrait per- mettre I’amtlioration de notre connaissance de I’histoire du vivant.

> Des genes g la queue leu leu

Une premike approche pour exploi- ter ces informations genomiques consiste B utiliser les mkthodes clas- siques de phylogknie, mais en les appliquant i des skquences beaucoup plus longues, obtenues simplement en mettant bout 1 bout les diffkrents g&es pour augmenter le pouvoir ksolutif. La proche parent6 entre les algues rouges et les plantes vertes a ainsi pu 6tre solidement Ctablie, grice 1 la fusion d’une dizaine de kquences prot&ques dCrivCes de genes nuclCaires, ce qui a mis fin i une polCmique sur I’origine des chloro- plastes : un unique CvPnement d’endo- symbiose * d’une cyanobactkrie dans un eucaryote primitif a bien donnP naissance aux chloroplastes, car il est trks improbable qu’algues rouges et plantes vertes aient acquis indkpen- damment ces organites aprks avoir divergk (20). En revanche, d’autres fusions, comme celles de toutes les protkines ribosomiques (environ 10 000 acides aminks), n’ont pas per- mis d’augmenter la rksolution de la phylogtnie des eubacdries, illustrant la difficult6 du probkme. Une seconde approche utilise des caractkes gCnomiques plus intkgrks, comme l’ordre des g&nes le long des chromosomes. En effet, ces carac- &es ont une trks faible probabilitC de changer plusieurs fois indkpen- damment vers le mCme Ctat (conver- gence) et contiennent done une trks bonne information historique, contrairement aux bases des sequences d’ADN qui n’existent que dans quatre Ctats et pour lesquelles les risques de convergence sont plus grands (21). En revanche, ces donnkes, contrairement aux skquences, ne peuvent pas encore itre analyskes de manike statistique. I1 s’agit done juste de savoir si la mime structure

Page 4: Phylogénies moléculaires et génomes

complexe est partagee ou non. Don- nons quelques exemples.

L’ordre des genes dans le genome mitochondrial est tres conserve chez la plupart des animaux. Chez les ver- tebres, il ne differe que par la posi- tion de quelques genes d’ARN de transfert. Chez les arthropodes, la situation est plus diverse : I’ordre des genes est le meme chez les insectes et les crustaces, mais differe chez les myriapodes (mille-pattes) et les autres arthropodes. Ainsi, les insectes et les myriapodes ne seraient pas proches parents, et ne devraient leur ressemblance qu’au fait qu’ils se sont adapt& de maniere convergente a la vie terrestre. Si I’on consider-e a present le genome nucltaire, on peut esperer que les nombreuses zones de syntenie” observies chez les meta- zoaires, et particulierement chez les vertibres, fourniront des informa- tions precieuses. Quant au genome des procaryotes, les remaniements y sont tres frequents, affectant mime les operons”, et, pour I’instant, l’ordre des genes n’a pas permis de resoudre de question importante (22).

Les positions des introns (sequences non codantes intercalees dans la

sequence codante des genes euca- ryotes) ou des elements transpo- sables fournissent aussi de bonnes informations, car, si les mCmes pertes peuvent survenir indepen- damment dans differents groupes, les acquisitions ont de tres grandes chances d’itre uniques. Une telle approche a permis d’eclairer I’origi- ne des c&aces, que l’on placait habi- tuellement pres du groupe des carni- vores. Plusieurs retroposons” occu- pent exactement les memes places chez les &aces et chez l’hippopota- me, qui serait done le plus proche parent terrestre de ces mammiferes aquatiques (23). Rarmi les autres caracteres genomiques utilisables, on peut titer les variations du code genetique - les mimes se retrouvent par exemple chez les Pchinodermes (Ptoile de mer, oursins) et les hemi- chordes (animaux vermiformes)

(24) - OLI les duplications geniques partagees. Ainsi, la genomique fait souffler un vent nouveau sur une science tres

ancienne, la classification des orga- nismes. Meme si les methodes d’ana- lyse phylogenetique specialement dediees aux ginomes complets ne sont pas encore totalement maitri- sees, I’afflux de nouvelles donnees bouleverse tout autant notre concep- tion de I’histoire du vivant qu’elle I’affine ou la confirme. 0

P our I’essentiel, I’obtention de la sequence du genome d’une esp&ce ne

depend que des moyens materiels et financiers investis. Canalyse in si/i-

co de la sequence obtenue est gen&alement plus delicate. Si les pro-

grammes informatiques utilises pour la recherche des regions codantes

(open reading frames, ORF) semblent en detecter p&s de 99 % chez les

eucaryotes, I’annotation des ORF, qui consiste a attribuer une fonction a la

proteine correspondante, pose en revanche de nombreux probkws. La

methode la plus couramment employee est fond&s sur la recherche de simi-

larite globale avec des proteines de fonction connue, au rnoyen de pro-

grammes informatiques de type BLAST*. En effet, des proteines homo-

logues - c’est-a-dire de&ant d’un ancetre commun, ce que I’on suppose si

leurs sequences sont suffisamment similaires - ont souvent la meme fonc-

tion et sont alors dites analogues. On peut ainsi annoter des sequences de

proche en proche, au risque de propager d’eventuelles erreurs (voir /‘article

de J.L. Risler et A. Louis, p. 44).

Or les causes d’erreur ne manquent pas : il existe ainsi des familles multige-

niques dans lesquelles les differentes copies, bien que chimiquement sem-

blables, ont des fonctions differentes (hemoglobine/myoglobine, par

exemple). En outre, la sequence la plus similaire a I’ORF etudiee n’est pas

toujours la plus proche parente de cette ORF sur un arbre phylogenetique,

du fait de vitesses d’evolution differentes dans les differentes branches. Par

exemple, une sequence A peut avoir diverge rapidement de sa plus proche

parente B, laquelle risque de ressembler davantage a une sequence C pour-

tant plus lointainement apparent&s. II serait done plus judicieux, pour affiner

I’annotation, d’utiliser l’information fonctionnelle de la sequence la plus proche

phylogenetiquement, plutot que celle de la sequence la plus similaire (1).

Meme si cette regle est generalement vraie, il y a de nombreuses excep-

tions, comme le montre I’exemple de la lactate et de la malate deshydroge-

nase (LDH et MDH respectivement) d’un eucaryote unicellulaire, 7iiic/?omo-

nas vagina/is (en medaillon). Les LDH et MDH forment deux ensembles

monophyletiques qui ont diverge tot dans l’evolution du vivant (voir /a tigu- re). Or, dans cet arbre, la LDH de 5: vagina/is (caracteris&s comme lactate

deshydrogenase par son activite biochimique) emerge au milieu des MDH

comme le groupe frere de la MDH de 7: vagina/is (2). Cela implique qu’il y a

eu duplication rkente du gene de la MDH (fkhe), suivie d’un changement

de fonction (etoile). Que ce soit sur la base de la similarite ou de la phyio-

genie, et dans I’ignorance de son activite biochimique, on await annote la

LDH de 5: vagina/is comme MDH. Canalyse in silica n’est done pas la pana-

c&e, mais plutot une aide pour guider les experiences in vi&o. w

(1) J.A. Eisen (1998) Genome Res. 8, 163-167.

(2) G. Wu (1999) Proc. AktlAcad. Sci. lJSA96, 62856290.

Lactate dbshydrogrinases (LDH)

-4 Ma! 371~ dc?s:~ydrog&ases (MDH)

-- 4

? I__.__-_ i-- ____.._ _--___. C!lbmyd/a ti-achomatis 2

!

.~~~ 1 ~~~~~~_i.. _ __lc-__ Trichomonas vagina/is LDH

i ..--..-. --... TrkY~omo~ms vagmaiis Muff

I..... ~._ ;l/lvcobaclenum bous

1

I_-_-_ Demococcus radlodurans i- ! -----i;_~__~__m___

I.....{

CaerJorhabdiiis eiegans

_.__ Homo sapiens L-....

L_ Drosoph,‘la melanogaster

BIOFLJTUR 206 l Decembre 2000 53