Faire parler les séquences

5

Click here to load reader

Transcript of Faire parler les séquences

Page 1: Faire parler les séquences

] LESSURPRISESDE LAG~NOMIQUE 1

les s6

Dks lors que les se’quences du ge’-

nome sont mises 2 la disposition des

chercheurs, il s’agit d’en comprendre

la signification. Mais les <( annoter ))

n’est pas chose facile... I1 est en

particulier trh difficile d’identifier

pr~cishnent les limites des zones

codantes ou non, des exons et des

introns. Puis reste 2 affecter une

fonction 2 la protkine correspondant

2 tel ou tel g&e.

* Laboratoire GBno- me et informatique, universitb de Versailles, 45, avenue des Etats-Unis, 78035 Versailles cedex. E-mail : risler@ genetique.uvsq.fr

Les asthisques renvoient au glossaire p. 48

(1) httpY1216.190 101.28/GOLD

n cette dernike annke du sikcle, on assiste g une (( ruCe vers I’or

gkomique )) : cons&C en novembre, le site GOLD (l), oti sont recensks les projets de s&quenGage, nous apprend que les kquences compktes de 38 gC- nomes bactkiens et de 3 gknomes eu- caryotes ont ktk publikes, sans comp- ter plus de 170 gtnomes bactkiens et prks de 50 gCnomes eucaryotes en tours de skquengage (voir le tableau p. 34-35). Cette accumulation expo- nentielle de don&es est Cpuisante, et des procCdures automatiques efficaces pour c( dkhiffrer s) les kquences sont absolument indispensables. En fait, oii est le probltme ? La plu- part des gens ont lu plus de 200 livres dans leur vie sans avoir recours 2 I’or- dinateur. Quelle est done la particula- ritC de ce qu’on appelle parfois <c le grand livre de la vie )) ? C’est simple : le texte brut du gCnome est incom- pkhensible.. . Si certaines parties (les gkes proprement dits) peuvent Ctre dtcodCes suivant un processus connu, le probkme consiste pr&istment B repCrer ces parties c( signifiantes 1)

44 BIOFUTUR 206 l Dkembre 2000

quences

Le &quenGage ne r&&le pas immbdiatement les genes : it faut ensuite

annoter la sequence obtenue.

dans une masse de texte (les regions intergkniques) que nous ne savons pas dkhiffrer. 11 est mCme possible que les rkgions interginiques n’aient pas de signification biologique parti- culikre, auquel cas il n’est pas surpre- nant que nous ne sachions pas les interprkter ! Soyons plus prCcis : le ginome humain est composk de 3 milliards de nuclCotides (les

cc lettres b’ A, T, C et G). 11 comporte entre 30 000 et 60 000 g&es, chacun Ctant composk en moyenne d’un mil- lier de nuckotides. L’ensemble des genes reprksente done, chez l’hom- me, environ 30 millions de nuclko- tides dans l’hypothke basse... soit 1 % seulement du ginome : le mes- sage est compktement noyC dans le bruit de fond. Heureusement, les

Page 2: Faire parler les séquences

genomes des batteries et des euca- ryotes inferieurs, tels que la levure, sont beaucoup plus compacts. Le rep&age des genes y est plus facile. Comme les sequences de certains genes sont tres conservees chez toutes les especes, le dechiffrage des genomes des organismes inferieurs aide beaucoup a l’interpretation de ceux des organismes supirieurs. Annoter une sequence genomique pose un probleme a deux niveaux : il faut d’abord reperer, dans la sequen- ce complete d’un genome, les parties que I’on pense pouvoir dechiffrer (par exemple les genes), avant de les identifier et de leur donner une signi- fication biologique. Dans cet article, nous nous limiterons a la faGon de detecter et de donner un sens a des genes codant des proteines. Des sequences genomiques cadent d’autres elements, tels que des ARN non traduits (ARN de transfert, ARN ribosomiques), mais leur prediction n’utilise pas les mtmes outils. Abordons la premiere &ape, qui consiste a reperer les genes, dans le cas d’une sequence genomique bacte- rienne. Chez les batteries, les genes sont d’une seule piece, commencent generalement par le codon*

~1 start )), forme des trois lettres ATG, et se terminent par un des trois codons c( stop )) universels, TAA,

TAG ou TGA. La strategic consiste alors a chercher une suite de lettres

de longueur cc raisonnable )p et ne contenant aucun codon stop. On rep&e ainsi sur le genome des ORF (open reading frames, phases de lec- ture ouverte), definies comme les suites de lettres comprises entre deux

codons stop. Au sein de chaque ORF, on cherche ensuite un codon start qui marque le debut des genes. Si l’on trouve un tel codon, on tient alors peut-itre une sequence codan- te, comprise logiquement entre un

start et un stop.

> De I’ORF au gbne

Tout cela a l’air enfantin. Une ques- tion, cependant, vient immediate- ment a I’esprit : quelle longueur minimale doit avoir une ORF pour qu’il vaille la peine de s’y interesser ? Les plus petites proteines, telles cer- taines proteines ribosomales, com- portent environ 60 acides amines. Chacun d’entre eux Ptant code par trois lettres, les genes correspon- dants ont done une longueur d’envi- ron 180 nucleotides. Or la probabi- lite qu’une suite aleatoire de 180

lettres, tirees au hasard dans un alphabet a quatre lettres A, T, G et C, ne comporte aucun codon stop est loin d’etre negligeable. C’est

pourquoi, au risque de rater les plus

petits genes, on ne considere en

general que les ORF d’au moins 300 nucleotides, correspondant a des proteines d’au moins 100 acides amines : la probabilite qu’une telle ORF soit due au hasard est alors suffisamment faible. Si I’ORF consi- derie est bien un gene, alors nous devons trouver son codon initiateur ATG... et, dans un mot de 300 lettres ou plus, nous risquons de trouver plusieurs triplets ATG. Lequel choisir ? De toute evidence, nous avons besom d’informations supplementaires. Le salut vient du fait que les genes sont destines a itre traduits en proteines. Cette traduc- tion utihse un code genetique (< degenere ,a : i un acide amine donne correspondent en general plu-

sieurs codons synonymes. Par exemple, les 4 codons GTT, GTC, GTA et GTG vont de pair avec l’aci- de amine valine. Si les codons syno- nymes Ctaient utilises avec la meme frequence, celle-ci serait de 25 % pour chacun des 4 codons prece- dents. Or ce n’est pas le cas : dans les genes fortement exprimes de E. coli, par exemple, on observe que GTT est utilise 2,5 fois plus souvent que prevu, et GTC 10 fois moins souvent. Cette utilisation diffiren- tielle des codons, ou biais d’usage, . . .

. ..CCTAAGTCCGAATGCCATGGCTGAACCGTAGTT 1 IUUU!-_._.__ _J I I I I I II-.... 2...urluuuuuuuuu 3... 1 u u u u u L__i u u u u I . . . .

II y a trois fapons de lire un brin d’ADN par gmupes

de trois bases, ou codons (en haut). Ces trois phases

de lecture font apparaitre des codons start (ATG)

ou des codons stop (TAA, TAG et TGA) qui peuvent

correspondre au debut et a la fin dune sequence

codante. Une phase de lecture ouverte (ORF) est

une sequence de longueur e( suffisante m comprise

entre un start et un stop. Dans cet exemple, la phase

1 et la phase 3 compmnnent toutes deux un start

(en vet-t), mais la phase 3, quake codons plus loin, est

intermmpue par un stop (en rouge). Par consequent,

seul le codon start de la phase 1 correspond peut-Qtre

au debut d’une ORF.

A plus grande Bchelle (ci-contre), on peut rep&enter

les codons start et stop par des barres dans les

six phases de lecture d’une sequence double brin

(trois par brin). Ici, la seule ORF de taille raisonnable

apparait dans la phase +2. Reste a determiner, au cas

00 cene ORF est bien un gene, lequel des deux

codons start correspond au debut de la sequence

codante.

BlOFlJTLJR206 l Dkxmbre2000 45

Page 3: Faire parler les séquences

1 LESSURPRISES DE LAGiNOMlQUE 1

(2) A.V. Lukashin, . . . est caracteristiaue de chaaue es&e. M. Borodovsky (1998) Nucleic Acids Res. 26, 1107-1115.

(3)A.L. Delcher et al. (1999) Nucleic Acids Res. 27, 4636-4641.

(4) SM. Lewis etal (2000) curr opin. struct Bid 10, 349-354.

1 1 1 On peut alors calculer l’usage des codons dans un gene putatif et le comparer a celui qui est observe pour des genes deja identifies et caracterises avec certitude. Une bonne adequation entre les deux valeurs indique en general un veri- table gene, une mauvaise fait douter que I’ORF soit codante. Les limites des regions presentant une bonne adequation permettent gineralement de localiser le bon codon start. Bien

exon 1

Reperer les genes dans un genome front&es des introns sont plus ou bacterien n’est done pas un probleme moins conservees et peuvent aider i insurmontable (31, mime si l’annota- trancher. En outre, une courte tion automatique demande a ttre sequence, bien conservee chez la soigneusement verifite - un travail levure (TACTAAC) mais plus minutieux, long et ingrat. I1 n’en va variable chez les eucaryotes supe- malheureusement pas de meme chez rieurs, se trouve une trentaine de les eucaryotes, dont les genes sont bases en amont de l’extrtmite 3’ des morcelts : un gene eucaryote com- introns. Tout compte fait, ces criteres Porte en general plusieurs portions sont tres insuffisants pour reperer qui seront effectivement traduites en sans ambigum? les differents introns proteine - les exons -, separtes par d’un gene. La encore, il faudra utili- des regions qui, elles, seront Climi- ser le fait que les introns, cc inutiles )),

intron exon 2 . . . . .

Gene ‘.... . . . . . .

. ..TACGCTTCAGCIGTATTAAGCG...TAGIGTCCATG... . . . . . . . . . . . . . . . . . . . UUUUIIU

ARN messager Bpiss6

exon 1 exon 2

. ..U A C G C U U C A G GIG U C C A U G...

uuuuuu Dans un gene eucaryote, les patties codantes (exons) sont intermmpues par des parties non codantes (introns) qui

commencent par GT et finissent par AG. Dans cet exemple, si I’on note la frontih de I’intron et que I’on poursuit

la lecture dans sa sbquence, on est intermmpu par un codon stop. Dans I’ARN messager, 00 I’intron a 6t6 Blimin6,

la lecture continue au contraire dans I’exon 2.

entendu, il existera toujours des genes oti l’usage des codons est peu biaise, et qui seront done plus diffi- tiles a identifier. Heureusement, les regions codantes sont contraintes par le fait qu’elles doivent etre traduites en proteines fonctionnelles : elles ne peuvent pas muter aleatoirement. Par exemple, si la proteine cod&e par un gene comporte 40 % d’acides amines hydrophobes tels que la vali- ne, environ 40 % des codons auront un T en deuxieme position, alors qu’il n’y a aucune raison que les regions non codantes respectent cette contrainte. On observe aussi que la distribution des cc mots )) - par exemple, la frequence d’apparition de certains mots de six nucleotides - est differente dans les deux types de regions. On voit done qu’il existe une (ou des) difference(s) de (( style b) entre les parties codantes et les par- ties non codantes. Ces differences sont mises a profit de man&e tres efficace par des programmes fond& sur les chaines de Markov (uoir I’uY-

title de G. Delkage et C. Geourjon,

p. 66) qui, schematiquement, per- mettent de dire si une region don&e d’un genome est &rite de facon <c previsible ss (elle est codante) ou non (elle n’est pas codante) (2).

46 BIOFUTUR206 l Dkembre2000

nees avant la traduction - les introns. Le probleme n’est done plus de reperer simplement le debut et la fin d’un gene, mais d’identifier precise- ment les limites des introns et des exons (4). Premiere observation : la

longueur des exons et des introns Ctant extrimement variable, ce para- metre ne peut Ctre utilise comme cri- tere d’identification.

>La chasse auxexons

On remarque ensuite qu’il faut dis- tinguer les exons externes (le pre- mier, qui contient le codon start, et le dernier, qui contient le codon stop) des exons internes, flanques d’un intron a gauche et a droite. En effet, les introns sont Climints par un mecanisme d’epissage grace auquel les exons qui les flanquent sont raboutts, et ce mecanisme exige que les introns commencent (en 5’) par GT et finissent (en 3’) par AG. Autrement dit, les exons internes sont flanques en 5’ par AG et en 3’ par GT. Or le nombre d’AG et de GT dans une sequence genomique est enorme, et la presence de ces deux di-nucleotides n’indique pas force- ment la presence d’un intron ! Les sequences voisines des AG et GT aux

peuvent Cvoluer librement alors que les exons, eux, sont contraints par les proteines qu’ils cadent. Comme nous l’avons vu plus haut pour les bacti- ries, I’usage des codons peut Ctre un facteur discriminant tres efficace (dans un intron non codant, les tri- plets de bases n’ont aucune raison de suivre les statistiques des vrais codons). De meme, la composition des introns et des exons en cc mots p) de longueur don&e est differente. Malheureusement, certains exons peuvent ne cornporter que quelques dizaines de nucleotides : c’est beau- coup trop peu pour reperer une ten- dance statistique, et ils seront done purement et simplement ignores. De m&me, on risquera de prendre pour des exons des introns courts ne com- portant pas de codon stop. Les exons externes, eux, doivent etre trait& separement, puisque le premier exon n’a pas d’intron en amont, done pas de AG obligatoire, et que le dernier exon n’a pas d’intron en aval, done pas de GT obligatoire. Pour identi- fier le premier exon d’un gene, on cherchera a identifier une (ou des) stquence( s) promotrice( s) qui per- met(tent) h I’ARN polymerase de reperer a quel endroit elle doit com- mencer a transcrire I’ADN en ARN.

Page 4: Faire parler les séquences

Ces promoteurs existent aussi bien chez les batteries (boite de Pribnow) que chez les eucaryotes (la fameuse TATA box) mais, la encore, les sequences promotrices sont trop courtes et trop peu conservees pour constituer un critere absolu. Du cbte du dernier exon (en 3’), c’est encore pire : on ne sait pas bien comment YARN polymerase rep&e la fin du gene, meme si l’on a identifit la sequence AATAA, sit&e en aval du codon stop, comme le signal qui commande I’ajout d’une queue de plusieurs dizaines de nucleotides A a I’extrCmitC 3’ de I’ARN messager. Le dernier exon est done essentiellement une sequence potentiellement codan- te commencant apres un AG et finis- sant par un stop... C’est peu ! Comme il est difficile de reperer sans ambigui’te le debut et la fin des genes, il arrive souvent que deux genes dis- tincts soient artificiellement fusion- &s. Bref, la situation n’est g&e brillante et montre a quel point de nombreux mecanismes biologiques sont ma1 compris. Apres tout, la machinerie cellulaire, elle, ne se

trompe pas : les genes sont correcte- ment transcrits en ARN messagers, qui sont eux-mtmes correctement Cpisses. Les signaux qui permettent une transcription fiddle existent for- cement mais, de toute evidence, nous savons ma1 les reperer (5). II n’est pas exclu que la structure locale de I’ADN joue un role de premier plan, d’autant plus difficile a cerner que nous ne savons pas la predire fine- ment a partir de la sequence. Ce qui precede montre que l’annota- tion automatique des sequences geno- miques n’est ni facile ni fiable, surtout chez les eucaryotes (6). 11 n’est pas deraisonnable de penser que, chez cer- tains eucaryotes superieurs, 50 % des predictions de genes repartees dans les banques geniralistes cornportent une erreur. Et pourtant, on lit par ailleurs que 80 a 90 % des genes humains sont correctement predits.. . En fait, on ne parle pas de la meme chose. Dans le premier cas (vision pes- simiste), on attend que chaque gene soit decortique scrupuleusement, a la base pres, et que la sequence pro- teique fq conceptuelle )), obtenue par traduction dans l’ordinateur, corres- ponde a I’acide amine pres a la sequence proteique reelle. Nous 1’ avons vu, cette attente est souvent illusoire. Dans le second cas, on adop- te une vision optimiste des chases, celle du biologiste experimental. En effet, il est fort improbable que tous les exons d’un gene Cchappent a

l’analyse automatique. Malgre les difficult& de l’exercice, on peut pen- ser qu’au moins un exon par gene aura Cti correctement identifie. La sequence de cet exon permettra de reperer, par hybridation, 1’ARNm correspondant au gene, puis de deter- miner la sequence de I’ADNc”, ce qui permettra une annotation exacte et precise de la sequence genomique cor- respondante. Juste retour des chases.. .

>Lesskquences exprimbes 3 la rescousse

On ne saurait Ctre complet sans evo- quer le role important que jouent les banques de sequences (et le program- me BLAST*) dans I’annotation geno- mique. Une source d’information essentielle se trouve dans les EST (expressed sequence tags), ces (( Cti- quettes )j constituees par le sequega- ge systematique des extremites d’ADNc partiels. Si I’on peut avec cer- titude relier un exon a une portion d’EST, alors l’annotation du gene a fait un grand pas : les front&es intron-exon deviennent en principe faciles a identifier puisque, dans les EST, les introns ont ete &mines. Le probleme est que les EST ne sont pas des ADNc complets (en principe, ce ne sont que quelques centaines de nucleotides du c&P 3’) et qu’en outre, ils cornportent le plus souvent de nombreuses erreurs de sequence. On ne peut done esperer, en general, avoir une identite parfaite entre la sequence genomique d’un exon (supposee exac- te) et la sequence de I’EST qui lui cor- respondrait. Supposons qu’une por- tion de la sequence genomique que nous venons de determiner soit iden- tique a 98 % avec celle d’une EST. Soit nous admettons que les diffe- rences sont dues a des erreurs dans la sequence de l’EST, soit nous envisa- geons que I’EST, de sequence leg&e- ment differente, puisse correspondre en fait a un allele (si les souches sont differentes) ou a un autre gene voisin dans une famille multigenique. Pour notre part, sans pouvoir trancher, nous ne partageons pas l’optimisme des partisans du (( tout EST s). Une solution alternative consiste a compa- rer (avec un programme comme BLASTX*) la sequence genomique aux sequences proteiques contenues dans une banque expurgee et bien annotee comme Swissprot (7), mainte- nue a Hnstitut suisse de bio-informa- tique. Cette methode presente des avantages certains : outre le fait que les introns, comme dans les EST, ont

CtC Plimines dans les sequences proteiques, la comparaison ADN/

prottine a toutes les chances d’etre plus sensible qu’une comparaison ADN/ADN. Tout d’abord, les se- quences proteiques sont en general mieux conservees que les sequences nucleotidiques, puisque le code gene- tique est digenere ; ensuite, on a affai- re a un alphabet a 20 lettres au lieu de 4, ce qui rend les identites fortuites moins probables ; enfin, on tient compte, dans ce genre d’etude, des ressemblances entre acides amines. Cette methode est certes puissante, mais, bien entendu, ne vaut que si une sequence proteique homologue et suf- fisamment proche a deja PtC introdui- te dans les banques. Une fois un gene rep&C et delimite, il reste i affecter une fonction i la pro- teine correspondante - de plus en plus souvent cc putative )) ou (( hypo- thetique )). Ce n’est pas aussi simple qu’on pourrait le croire. En l’absence de don&es biochimiques experimen- tales, qui seules ont force de loi, le plus evident est de proceder cc par homoiogie )), par comparaison avec des proteines de fonctions connues et de sequences voisines, ce qui a peut- ttre deja Cd fait a l’etape precedente. Or le raisonnement analogique est dangereux. Si la sequence d’une pro- teine hypothetique est identique h 80 % a la sequence d’une proteine d’un organrsme voisin et de fonction connue, alors il n’est sans doute pas deraisonnable de lui affecter la meme fonction. Mais ou s’arreter ? A partir de quel taux d’identite peut-on considerer que deux sequences ont probablement la meme fonction ? Nous n’avons pas la reponse, et nous sommes surs que personne ne l’a !

> Erreurs en sbie

Cette question est a la base du pro- bltme principal des banques de sequences : la propagation d’erreurs d’annotation. Supposons qu’en 1998 on ait affect6 par erreur la fonction (c perlimpimpinate deshydrogenase )) a une proteine hypothetique issue d’un genome nouvellement sequen- ce. Cette annotation se trouvera marquee au burin dans toutes les banques de sequences. En 2000, toute nouvelle sequence ressemblant a la premiere sera automatiquement annotee comme perlimpimpinate deshydrogenase, et ainsi de suite. 11 y a 19 un probleme gravissime qui n’est pas pres d’etre resolu. II faut done se garder d’une utilisation irraisonnee et automatique de programmes . . .

(5) P Rouze etal. (1999) curr @in. Plant Biol. 2, 90-95.

(6) K. Murakami, T. Takagi (1996) Bioinformatics 14, 665-675.

(7) Swissprot : www.expasy.ch

BlOFlJTlJR 206 l DBcembre2000 47

Page 5: Faire parler les séquences

1 LESSURPRISES DE LAGiNOMlQUE 1

(8) Prosite : www.expasy.ch/spr of/prosite.html

(9) Blocks: www. blocks.fhcrc.org/

(10) PFAM : www, sanger.ac.u~ffam/

(11) Prodom : http://protein. toulouse.inra.fr/ prodom.html

(12) Voir le (1 deambulum ‘) d’lnfobiogen : www.infobiogen.fr/ se~ices/deambulum/

(13) Academic des sciences (19991 Dkeloppement et applications de la gdnomique : 12pr&g6nome, Editions Tec&Doc, Paris.

l .* comme BLAST” qui ne peuvent don- ner que ce qu’ils ont. Ce qui est cer- tain, c’est que, dans chaque organis- me sequence, 30 a 50 % des pro- teines putatives ne ressemblent (au sens de BLAST) h aucune sequence proteique deja connue - chiffre considerable et tout a fait inattendu.

conservant explicitement tomes ies sequences (alignees) de tous les motifs de la famille. On peut alors comparer la sequence d’une proteine a un cc profil in tree a partir de cet alignement multiple - option que propose desormais Prosite dam de nombreux cas. Enfin, derniere nee,

Les s6quences s’accumulent trap vite pour nos capacitbs d’interprr%ation,

et les logiciels actuels sont insuffisants pour I’annotation automatique.

II est possible, heureusement, d’aller plus loin grace aux cf banques de motifs if. La plus ancienne et la plus connue est Prosite (81, extension de Swissprot, qui recense, sous forme symbolique, les sequences consen- suelles caracteristiques de familles de protiines - dont les membres posse- dent en general des activites voisines. Par exemple, la sequence [EQ]-x(2)- [AT]-F-x(2)-W-x-N (qui se lit E ou Q, suivi de 2 acides amines quel- conques, suivis de A ou T suivi de F suivi de . . . etc...) est CaractCristique des actinines. II suffit alors de poser la question (( ma proteine contient- elle un motif recense dans Prosi- te ? )a. Le probleme de ce genre de representation est que, si une nou- velle proteine de la famille a le mau- vais gout de commencer son motif

par D plutcit que par E ou Q, elle ne sera pas reperte. La banque Blocks (9), plus recente, regle la question en

la banque de (( motifs F) ou de cc domaines p) appelee PFAM (10) est sans dome la plus complete, car fon- dee entre autres sur la comparaison systematique de tomes les sequences proteiques de la banque Swissprot (voir aussi la banque Prodom (111 a ce sujet). Les motifs ou domaines consensuels de PFAM sont converris en cc profils )) par une methode fon- dee sur les chaines de Markov, et I’experience montre que la compa- raison d’une sequence a PFAM est a la fois sensible et selective. Cepen- dant, ce petit jeu a lui aussi ses limites. On sait en effet que de nom- breuses proteines sont formees par l’assemblage de plusieurs (< domaines )) que l’on retrouve, en totalite ou non, plus ou moins conserves et pas forcement dans le mime ordre, dans d’autres protiines ciairement non apparent&es. Ce e< bricolage p) evolutif, consistant h faire du neuf avec du vieux, peut Pvi- demment conduire a des predictions fausses. On ne saurait @tre complet sans titer les methodes d’annotation des proteines fond&es sur des cridres physico-chimiques ou sur la predic- tion des structures secondaires etlou tertiaires (uoiv l’article de G. Delhge et C. Geowrjon, p. 66). On pourrait imaginer que l’annota- tion est terminee des iors qu’un gene a et6 identifie, et que l’on a pu attri-

buer une fonction a son produit (proteine ou ARN). II n’en est rien. Une autre phase de l’annotation des genomes est l’identif~catio~ des rela- tions entre les elements que les deux premieres &tapes ont mis en evidence (genes, elements de regulation, pro- teines, etc). Ces relations peuvent etre de natures diverses : implication dans une meme voie metabolique ou de regulation, interaction physique (protiineslprodines, proreines/ADN, prot~ines/ARN)* On sait par

exemple que le produit d’un g&e est susceptible d’activer, ou d’inhiber, l’expression d’un ou de plusieurs autres genes. Idealement, ces rela- tions doivent etre incluses dans le processus d’annotation complet, ce qui implique d’autres etudes experi- mentales et informatiques. De nou- velles plates-formes informatiques integrees sont en tours de developpe- ment pour reunir et relier I’informa- tion deja disponible, mais malheu- reusement dispersie dans les labora- toires, dans les bases de don&es du monde entier et, bien slir, dans l’enorme ressource que representent les publications scientifiques 1121. Le bilan global, certes, n’est pas si negatif. Notre comprehension des mecanismes evolutifs, ~ffn la phyloge- nie moliculaire, progresse B grands pas. La genetique inverse, la gino- mique fonctionnelle, la genomique structurale, l’etude du transcriptome, du proteome, du metabolome et autres cc omes t> sont une source extraordinaire de connaissances nou- velles, de plus en plus indissociables de l’etude du genome (13). I1 est clair cependant que les sequences geno- miques qui s’accumulent et leur decryptage systematique gene par gene peuvent favoriser un exces de reductionnisme, qui tendrait B nous faire croire que chaque gene a un role propre, alors que toute la biologie d’une cellule - et a fortiori d’un orga- nisme - est essentiellement affaire d’interactions entre differents compo- sants. Notre collegue Alain Hinaut a coutume de comparer la piriode actuelle i celle des grandes decou- vertes, quand les echantillons s’entas- saient dans les caves des musees : il a fallu des siecles pour que ces collec- tions soient analysies et repertoriees. Tout comme les plantes exotiques il y a trois siecles, les sequences geno- miques s’accumulent en attendant une expertise serieuse. Nos collegues ont fait la preuve de leur maitrise technique i produire des kilobases et a les assembler. A nous maintenant de Ieur donner un sens. l

48 BIOFUTUR 206 l Dkembre2000