Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

111
D Des nomes aux S Sysmes M1 BIBS http://rna.igmors.upsud.fr/gautheret/cours/ 1 V. 2010.3

Transcript of Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Page 1: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

D GéDes Génomes aux S tèSystèmes

M1 BIBS

http://rna.igmors.u‐psud.fr/gautheret/cours/

1

V. 2010.3

Page 2: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Logique de l’UELogique de l UE

• Génome

• Transcriptome• Transcriptome

• Protéome

• Interactome

• Modélisation Biologie des Systèmes 

2

Page 3: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Contenu Général de l’UEContenu Général de l UE

• Daniel Gautheret 3 seances : Vocabulaire du genome ‐ Les genomes modeles et pourquoi les sequencer ‐ Genomes Procaryotes vs Ecuaryotes ‐Methodes de p q q y ysequencage ‐Méthodes d'etude du transcriptome (sauf les puces) +1 Analyse d'article 

• Nancie Reymond 3 séances en salle machine : la technologie des puces pour l'etude du transcriptome Exemple d'analyse Analyse differentielle et classification des resultats 

• Olivier Lespinet 2 seances : Methodes d'etude du protéome Genome, Proteome et construction des reseaux d'interactions Construction et comparaison de cartes metaboliques 

Al i D i 2 I t d ti h ( h i i ti it l t i• Alain Denise 2 seances : Introduction aux graphes (chemins, associativite, clustering, isomorphisme, distance entre graphes, et detection de motifs). 

• "Olivier Martin 1 seance : sur‐representation des sous‐graphes dans les réseaux (calculs de p‐values par permutations/shuffling) "de p values par permutations/shuffling).   

• Patrick Amar 3 seances : Les differents types de modeles (booleens, equations differentielles, etc). Quelques aspects de regulation (positive, negative et consequences pour les cycles) Illustrations sur de petits circuits. Reseaux de Petri et application au p y p ppmetabolisme. 

• Olivier Martin 1 seance : Techniques de Monte Carlo pour : ‐ l'obtention des graphes de proprietes donnees ‐ l'evolution in silico des reseaux vers des reseaux fonctionnels 

d i l i d b d' d l d' i li d' d d'Introduction a la notion de robustesse d'un modele, d'essentialite d'un noeud ou d'une arete. 

3

Page 4: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Plan GautheretPlan Gautheret

1. Les génomes modèles2. Les programmes Génome

Cartographie séquençage tags– Cartographie, séquençage, tags

3. Structure et dynamique des génomes4 Les bases de données génomiques4. Les bases de données génomiques

4http://rna.igmors.u‐psud.fr/gautheret/cours/

Page 5: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

1: Les génomes‐modèles

5

Page 6: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Pourquoi perdre son temps d d hil ?avec des drosophiles? 

"And sometimes these dollars go to projects that have littlego to projects that have little or nothing to do with the public good, things like … fruit fly research in Paris, France.“y

Sarah Palin, 2008

5:6

Page 7: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

D’abord, pourquoi des génomes modèles?D abord, pourquoi des génomes modèles?

Vecteur d’expression levure

cDNA humaincDNA humain homologue gène X

+

Levure mutante, déficiente pour gène X

Levure de phénotype sauvage

• Des dizaines de gènes humains sont capables de complémenter des mutations de levure

• => Les fonctions humaines se retrouvent dans des organismes plus simples, plus faciles à reproduire et à observer 

M i bi û t t l f ti t t d t t l

5:7

• Mais bien sûr, toutes les fonctions ne se trouvent pas dans toutes les espèces! 

Page 8: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Exemple d’intérêt de la « mouche à fruits » Banfi et al. Nature Genetics, 1996 

Milliers de transcrits 

Gènes causant des ttgtagctactgatcgatcgtagctagc

humains

phénotypes mutants gggcatgcat

acatgcatgctagctgactagctagctagtcgatgc

Recherche de similitudes

gcgatgctagctagtcgatcggactgatcgatcgcagatcg

gcatgctagctagtcgatgctagctgat

66 gènes candidats pour des maladies génétiques ou des 

cgtagtg q

fonctions essentielles chez l’homme

• Toutes les connaissances structurales et fonctionnelles acquises chez la drosophile sur ces gènes deviennent applicables.

5:8

Page 9: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Différentes raisons de choisir un modèleDifférentes raisons de choisir un modèle

• Facilité expérimentale• Facilité expérimentale– Grosses cellules, corps transparent, temps de génération court, 

taux de reproduction élevép

• Représentant d’une fonction– Différenciation cellulaire, Système immunitaire, Photosynthèse, 

symétrie bilatérale…

• Génome dense

• Données accumulées– Mutants, génétique, biochimie…

9

Page 10: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Rappel de phylogénieRappel de phylogénie

WikipediaWikipedia

LUCA

10

Page 11: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Escherichia coliEscherichia coli

• Phylum

– Bactéries gram ‐, protéobactéries

• Modèle pour:

b l– La microbiologie

– Réseaux d’interaction dans la cellule

– Voies métaboliquesVoies métaboliques

– Bactéries pathogènes (certaines souches)

Wikipedia

– Formation de biofilms

• Avantages:

Culture aisée– Culture aisée

– Grande connaissance de la biologie de l’espèce

4.5 Mb

4200 gènes

11

4200 gènes

Page 12: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Bacillus subtilisBacillus subtilis

• Phylum

– Bactéries gram +

• Modèle pour:• Modèle pour:

– Sporulation (différenciation cellulaire élémentaire)

– Flagelles

A t

Wikipedia

• Avantages:

– Grande connaissance de la biologie de l’espèceg p

4.2 Mb

4100 gènes

12

4100 gènes

Page 13: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Sulfolobus acidocaldariusSulfolobus acidocaldarius

• Phylum

– Archaes, Chrenarchaeotes

• Modèle pour:• Modèle pour:

– Biologie des Archées

– Réplication de l’ADN p

• Avantages:Wikipedia

– Systèmes moléculaires proches des eucaryotes mais plus simples

p

p

2.2 Mb

2300 gènes

13

2300 gènes

Page 14: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Saccharomyces cerevisiaeSaccharomyces cerevisiae

• Phylum• Phylum

– Eucaryotes, Fungi, Ascomycetes

• Modèle pourp– Les eucaryotes

– Le cycle cellulaire

Différentiation sexuelle primitive– Différentiation sexuelle primitive

– Fermentation

• Avantages– Temps de génération court

– Transformation facile pour introduire de nouveaux gènes

Wikipedia

nouveaux gènes

– Culture haploide possible: KO13 Mb

6000 gènes

14

6000 gènes

Page 15: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Schizosaccharomyces pombeSchizosaccharomyces pombe

• Phylum

– Eucaryotes, Fungi, Ascomycetes

• Modèle pour

– Génétique, biologie cellulaire et moléculaire 

Le cycle cellulaire la chromatine– Le cycle cellulaire, la chromatine

– Certaines maladies humaines

• Avantages 14 Mb

4800 gènes– Phase haploide dominante

15

4800 gènes

Page 16: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Dictyostelium discoidumDictyostelium discoidum

• Phylum• Phylum– Eucaryote/amoebozoa (amibes à 

pseudopodes)p p )

• Modèle pour– Différenciation cellulaire (stades 

uni‐ et pluricellulaire)

– Chimiotaxie

ApoptoseWikipedia

– Apoptose

• Avantages– Culture facile

34 Mb

Culture facile

16

12500 gènes

Page 17: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Tetrahymena thermophylaTetrahymena thermophyla

Ph l• Phylum– Cilié (protozoaire)

• Modèle pour• Modèle pour– Compartiments cellulaires, 

microtubules

– Activités enzymatiques

– Recherche biomédicale

• Avantages– Culture facile en grande quantité

Wikipedia

104 Mb (MAC génome)

17

27000 gènes

Page 18: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Chlamydomonas reinhardtiiChlamydomonas reinhardtii

• Phylum :• Phylum :– Algue verte (chlorophyte) unicellulaire

• Modèle pour– Eucaryotes photosynthétiques, plantes

– Mouvement, réponse à la lumière

– Biologie cellulaire et moléculaire– Biologie cellulaire et moléculaire 

• Avantages– Nombreux mutants connus

– Nombreux outils biologiques disponiblesWikipedia

14 Mb

4800 gènes

18

4800 gènes

Page 19: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Arabidopsis thalianaArabidopsis thaliana

Ph l• Phylum– Plantes, Angiosperme, dicotyledone

• Modèle pourp– Biologie végétale, agronomie

• Avantagesll d l l– Petite taille de la plante

– Petit génome pour une plante

– Cycle de développement court (2 mois)

– 40000 graine/planWikipediap

157 Mb

19

26000 gènes

Page 20: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les métazoaires (animaux pluricellulaires)Les métazoaires (animaux pluricellulaires)

Source: http://tolweb.org

Pluricellularité hétérotrophe, différentiation, formation des  tissus animaux

20

Page 21: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les bilatériensLes bilatériens

Signalisation type 

Symétrie bilatérale, gènes Hox, 

« humain »

Dehal et al. Science, 298:20025: 21Ernst Haeckel 

céphalisation, tube digestif…

Page 22: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Coenorhabditis elegansCoenorhabditis elegans

• Phylum

– Metazoaire, Nématode

• Modèle pour:

– Développement/différenciation

– RNA interférence

0,1mmSource: www.wormatlas.org

RNA interférence

• Avantages:– Pharynx, uterus, oocytes, oviducte, intestin, ovaire et 

même un comportement social en 959 cellules.même un comportement social en 959 cellules. 

– Descendance: environ 300 

– Génome disponible depuis 1999: le premier génome animal complet. p

– Pour chaque gène humain d'intérêt, l'homologue dans C. elegans peut être identifié en quelques minutes. Trouver sa fonction dans le ver est ensuite relativement facile par 

100 Mb

14000 gènesK.O. (Knock Out). 

22

14000 gènes

Page 23: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Drosophila melanogasterDrosophila melanogaster

• Phylum• Phylum:– Metazoaire, Insecte

• Modèle pour• Modèle pour– Génétique

– Développementpp

– Biochimie

– Biologie cellulaire Wikipedia

• Avantages– Facilité d’élevage

é é i bi– Génétique bien connue

170 Mb

12000 gènes

23

12000 gènes

Page 24: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Ciona intestinalisCiona intestinalis

Ph l• Phylum– Urochordés (chordés primitifs), Tuniciers

• Modèle pourp– Gènes Hox, développement

– Contient la plupart des gènes de signalisation et de développement designalisation et de développement de l’homme

– Origine des chordés/vertébrésWikipedia

• Avantages– Le plus petit génome parmi les chordés 

pouvant être manipulés 

p

expérimentalement

– Le système experimental le plus simple chez les chordés 160 Mb

24

16000 gènes

Page 25: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Nous sommes des poissons!Nous sommes des poissons!

Les poissons ne forment pas un groupe monophylétique.

Ostéichthyes (un poisson osseux) Poissons cartilagineux

Sarcopterygiens Actinoptérygiens

coelacanthedipneusteTeleostéens

tétrapodes

reptilesmammifères

Majorité des poissons

5: 25

Page 26: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Danio rerioDanio rerio

Ph l• Phylum– Métazoaire, Vertébré, 

TéléostéensTéléostéens

• Modèle pour– Evolution des vertébrés Ensembl

– Développement

– Génétique

– Régénération des organes

• AvantagesDé l id d– Développement rapide de l’embryon

– Embryons grands, transparents,  1,5 Gby g presistants

26

47000 gènes

Page 27: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

XenopusXenopus

Ph l• Phylum– Métazoaire, Vertébré, Amphibien

• Modèle pour• Modèle pour– Développement des vertébrés

– Processus cellulaires chez les vertébrésProcessus cellulaires chez les vertébrés

• Avantages– Grands oocytes (1mm): facilité 

X. laevis, X. tropicalis, Photo of Enrique Amaya

y ( )d’expression d’ARN exogène + suivi embryon, ou utilisation d’extraits cytoplasmiquescytoplasmiques

– Pb avec X. laevis: génome tetraploïde ‐> utilisation de X. tropicalis (diploïde) 1.5 Gb

27

18 000 gènes

Page 28: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Mus musculusMus musculus

• PhylumPhylum– Métazoaire, Mammifère

• Modèle pourp– Maladies humaines, cancers

– Essais pharmaceutiques

• Avantages– Reproduction relativement rapide

Wikipedia

– KO/clones

3 Gb

22000 gènes

28

22000 gènes

Page 29: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les génomes non modèles mais prioritairesLes génomes non modèles mais prioritaires

• Pathogènes procaryotes• Pathogènes procaryotes– Staphilococcus aureus, Yersinia pestis …

• Pathogènes eucaryotes• Pathogènes eucaryotes– Plasmodium falsciparum, …

• CulturesCultures– Oryza sativa, Zea mays…

• Bétail– Sus scrofa, Bos taurus…

• Biotechnologie– Lactobacillus, Rhyzobium…

• Génomique comparative– Pan troglodytes, Ciona savignyi…

29

Page 30: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Homo sapiensHomo sapiens

• PhylumPhylum– Métazoaire, Mammifère, Primate

• Modèle pourp– Mauvais modèle, mais intéressant 

à plus d’un titre

• Inconvénients– Expérimentation impossible sauf 

cellules somatiques en culture

Raël

cellules somatiques en culture (Hela..)

– Temps de génération lent

3 Gb

22000 gènes

30

22000 gènes

Page 31: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

2. Les programmes Génome2. Les programmes Génome

31

Page 32: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

L GéLes programmes Génome

• Préhistoire– Séquençage de Sanger

A l é d’ i é d– Avant le séquençage d’organismes: séquençage de bactériophages. 

– Plus grande séquence obtenue avant projets « Génome »: bactériophage 1: 50.000pb

– Comment passer à plusieurs millions de bp? 

– Bactérie: 0,5 – 8 Mb– Eucaryote unicellulaire: à partir de 3Mb

Mammifère: 3000 Mb– Mammifère: 3000 Mb

32

Page 33: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Organisme Bp Genes ratio

HIV‐1 10 000 10 1 000

H hil i fl 1 830 000 1703 1 000Haemophilus influenzae 1 830 000 1703 1 000

Escherichia coli 4 600 000 4288 1 000

Methanococcus jannashchii 1 660 000 1738 1 000

Amoeba dubia 670 000 000 000 ~5000? 134 000 000

Amoeba proteus 270 000 000 000 ~5000? 54 000 000

Saccharomyces cerevisiae 13 000 000 5885 2 000

Erysiphe cichoracearum(champignon)

1 500 000 000 ~10 000? 150 000

Coscinodiscus asteromphalus(di t é )

25 000 000 000 ~5000? 5 000 000(diatomée)

Caenorhabditis elegans 100 000 000 ~14 000 7 000

Drosophila melanogaster 170 000 000 ~12 000 14 000

Arabidopsis thaliana 120 000 000 ~26 000 5 000

Lilium formosanum(nénuphar)

36 000 000 000 ~15  000? 2 400 000

?Zea mays 5 000 000 000 ~20 000? 250 000

Allium cepa(oignon)

18 000 000 000 ~20 000? 900 000

P t t thi i

33

Protopterus aethiopicus(dipneuste)

140 000 000 000 ~40 000? 3 500 000

Homo sapiens 3 400 000 000 ~22 000 150 000

Page 34: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Le Programme Génome HumainLe Programme Génome Humain

• Le programme Génome tel que défini par le DOE en 1990• Le programme Génome tel que défini par le DOE en 1990– Carte génétique, résolution 2 à 5 cM (4 à 10 Mb chez l'homme) 

– Carte physique résolution 100 kbCarte physique, résolution 100 kb 

– A long terme, séquençage du génome humain (après amélioration des techniques) 

– Séquençage du génome d'espèces modèles 

– Ajouté en 93: identification du plus grand nombre de gènes possible (par séquencage de cDNA)possible (par séquencage de cDNA) 

34

Page 35: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Cartographie génétiqueCartographie génétique

• Hybrides d'irradiationOn recherche ce que deviennent des marqueurs: retrouver 2 marqueurs dans le même hybride indique leurmême hybride indique leur proximité. Par exemple, utilisation des marqueurs STS: le marqueur STS s1 est qretrouvé dans les hybrides hi,hj,hk, le marqueur s2 est retrouvé dans les hybrides hl, h t D d éhm, etc. De ces données, on déduit une proximité ou non des marqueurs s1 et s2.Résolution: 1‐2MbRésolution: 1‐2Mb

Carte Généthon 1996

5264 microsatellites résolution 1 6 cM (~3 Mb)5264 microsatellites, résolution 1,6 cM ( 3 Mb)

35

Page 36: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Cartographie PhysiqueCartographie Physique

BUT: rendre disponible toute région voulue d'un génome sous forme d'un fragment d'ADN cloné.d ADN cloné.1. Création d'une banque d'ADN du génome étudié 2. Identifier chaque clone 3. Ordonner/positionner clones sur le chromosome 

• Banques Génomiques– Phages, Cosmides: inserts de 15‐20kb: pour petits génomes – YAC (Yeast Artificial Chromosome): inserts de 500kb‐1Mb. Grands génomes. – Une banque génomique humaine se présente sous la forme d'une collection de 

plusieurs centaine de microplaques à 96 puits, chacun contenant un clone. 

• Ordonnancement des clonesSi l' è d t é éti d l ( l– Si l'on repère un marqueur de carte génétique dans un clone (par exemple par hybridation), ce clone se trouve directement positionné. 

– On peut également utiliser le recouvrement entre clones pour les positionner les uns par rapport aux autres. 

– On peut aussi utiliser les STS (Sequence Tagged Sites): des séquences quelconques uniques dans le génome. Le fait de retrouver le même STS dans 2 clones indique qu'ils se chevauchent. 

36

Page 37: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Notation et Carte CytogénétiqueNotation et Carte Cytogénétique

– Chaque chromosome humain possède un bras court ("p" pour "petit")q p ( p p p )et un bras long ("q" pour "queue"), séparés par un centromère. Les extrémités du chromosome sont appelées télomères.

– Chaque bras chromosomique est divisé en régions ou bandes é é bl à l' d d lcytogénétiques visibles au microscope à l'aide de certaines colorations. 

Les bandes sont nommées p1, p2, p3,  q1, q2, q3, etc., en allant du centromère vers le télomère. A plus haute résolution, des sous‐bandes apparaissent à l'intérieur des bandes. Les sous‐bandes sont numérotésapparaissent à l intérieur des bandes. Les sous bandes sont numérotés dans le même ordre. 

– Par exemple, la localisation du gène CFTR sur la carte cytogénétique est 7q31.2, c'est à dire: 

– Chromosome 7, bras q, bande 3, sous‐bande 1, et sous‐sous‐bande 2. Les extrémités du chromosome sont nommées ptel et qtel. La notation 7qtel indique la fin du bras long du chromosome 7.

37

Page 38: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Le séquençage de Sanger (1977)Le séquençage de Sanger (1977)

• Séquençage par terminaison dedideoxynucléotides

• Séquençage par terminaison de chaine– Utilisation de dideoxynucléotides pourUtilisation de dideoxynucléotides pour 

interrompre la synthèse à un certain type de base. 

4 é ti di tif– 4 réactions + marquage radioactif

• Amélioré en 1987 par l’introduction de marqueurs flurorescents (1 seulede marqueurs flurorescents (1 seule réaction) et l’automatisation.

Wikipedia

38

Page 39: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Séquençage Shotgun

• Principe général– Cosmide ou BAC sous‐cloné en 

fragments de petite taille D l él é– Des clones prélevés aléatoirement sont séquencés 

– Des séquences contigües sont reconstruites par precouvrement 

– Les séquences restantes sont réalisée de façon dirigée. On oit to t de s ite q e cette– On voit tout de suite que cette approche est problématique en présence de longues régions répétées. 

39

Page 40: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Shotgun hierarchiqueShotgun hierarchique– Le shotgun hierarchique ou 

"clone par clone" implique de générer un jeu de clones de grande taille (100‐200kb) couvrant le génome puis de soumettre au shotgunsoumettre au shotgun uniquement des clones bien choisis. 

– Dans le projet de séquençage du génome humain par le consortium international, les BAC à séquencer ont été choisisséquencer ont été choisis en analysant les profils de restriction (fingerprint) de l'équivalent d'une couverture 20X en BAC, combiné à différents marqueurs physiques.   

40

Page 41: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Assemblage des clones en contigs

– On doit assembler les clones pour reconstituer le chromosome. 

– Ceci commence par un assignement des clones au bon chromosome, àCeci commence par un assignement des clones au bon chromosome, à l'aide des cartes physiques, STS etc. (présence de marqueurs dans le clone et dans le chromosome). 

– Puis on recherche des recouvrements dans les séquences des clones LePuis on recherche des recouvrements dans les séquences des clones. Le recouvrement peut comprendre plusieurs séquences initiales avec gaps, donc pas forcément facile (voir figure ci‐dessous). 

– L'assemblage final est appelé un "squelette de contigs" (contig scaffold)– L assemblage final est appelé un  squelette de contigs  (contig scaffold).

41

Page 42: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Shotgun « génome complet »Shotgun  génome complet

l h " l " ( h l– le shotgun "genome complet" (whole‐genome shotgun) s'applique normalement aux génomes relativement simples en exploitant au maximum lesrelativement simples, en exploitant au maximum les informations de cartographie et la bioinformatique pour éviter les mésassemblages. 

– Employé par la Sté Celera pour le séquençage du génome de la Drosophile, puis du génome humain

Craig Venter42

Page 43: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Expressed Sequence Tags (ESTs)Expressed Sequence Tags (ESTs)

– EST = Séquences partielles d'ADNc clonés et prélevés aléatoirement– EST = Séquences partielles d ADNc clonés et prélevés aléatoirement.

– Idée initiale: • pourquoi vouloir tout séquencer (95% de junk DNA) si ce sont les gènes qui nous intéressent? 

• Puis après séquençage génome: pour l’étude des transcrits• Puis après séquençage génome: pour l étude des transcrits

– Grandes applications:Grandes applications:• Cataloguage des gènes 

• Formes alternatives des transcrits

• Profils d'expression/Northerns virtuels• Profils d expression/Northerns virtuels 

43

Page 44: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Utilisations des ESTUtilisations des EST

• Profils d'expression• Profils d expressionUn test statistique (Test de Fisher) permet de déterminer si les différences de niveaux d'expression sont significatives. 

Le mode d'obtention des EST peut introduire des biais dans ces profils (par exLe mode d obtention des EST peut introduire des biais dans ces profils (par ex. banques normalisées: les EST les plus fréquents sont réduits). 

Vu le coût associé à la création de banques d'EST utilisables en analyse quantitative, on s’est penché sur d'autres techniques de mesure d'expression q , p q pcomme les puces à ADN. Mais depuis, le séquençage est devenu abordable. 

44

Page 45: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les EST pour déterminer la structure des gènes

Blast d'un contig de 10kb contenant un gène unique contre la banque dbEST. La dernière ligne 

b fen bas est un artefact (séquences répétées). 

exon

intron1 EST

Page 46: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

EST et é iépissage alternatif

Skipped ppexon

Page 47: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Ecueils à la prédiction des transcrits par les ESTEST

Priming interne– Priming interne

– Rétention d’introns => notion de « spliced EST »

Gè h h t– Gènes chevauchants

– Mauvaise couverture 5’( f b f ll l th DNA )• (cf banques full‐length cDNAs)

Page 48: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les cDNA pleine longueur (full length cDNAs)Les cDNA pleine longueur (full length cDNAs)

Technologies spécifiques:

• Long-distance RT enzymes

• Cap trapping

Page 49: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

SAGE (Serial Analysis of Gene Expression)SAGE (Serial Analysis of Gene Expression)

– Génération d'ADNc double‐brin via amorce poly(T) biotinylée. – Digestion des ADNc par enzyme coupant en moyenne tous les 256 bases – Partie 5' des ADNc récupérée par billes magnétiques couplées à une molécule de 

streptavidine Sé ti 2 l t t fi ti d' li k à l' t é ité d DNA (li k– Séparation en 2 lots et fixation d'un linker à l'extrémité des cDNA (linkers différents pour les 2 lots) 

– Clivage par enzyme d'étiquetage, coupant 20 bases après l'extrémité (la taille du linker est ajustée de façon à conserver un bout d'ADNc de 10 bases) 

– Ligation et amplification des fragments deux par deux (ditags) en utilisant les deux linkers comme amorce (assure que tous les fragments sont amplifiés dans la même façon). Les ditags sont séparés du linker puis concaténés– Les ditags sont séparés du linker puis concaténés. 

– Les concaténats sont clonés et séquencés.

49

Page 50: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

SAGESAGE

• Image tirée du Sage Facility, Pittsburg50

Page 51: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les nouvelles technologies de séquençage h débihaut‐débit

51

Page 52: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Le pyroséquençageLe pyroséquençage

1. ADN immobilisé (billes)454 LifeSciences/RocheBiotage/Qiagen

2. Synthèse brin complémentaire par ADN polymérase

DNA pol

3. Introduction des dNTP un par un

4. Si bon dNTP: libération PPi, 

ATCGTACGGCGATCGA...GCCGCTAGCT...

p

dNTPPPi

ATP sulfurylasesynthèse ATP, et emission de lumière.300 500 t à l f i 400 000

dNTP

ATPlavage

ATP sulfurylase

Luciférase

• 300‐500nt à la fois x 400,000

52Nature Reviews Microbiology

Page 53: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Autres « sequencing by Synthesis »Autres  sequencing by SynthesisSolexa/IlluminaSolid

• 50‐75nt à la fois x 100 millions50 75nt à la fois x 100 millions

Phase d’amplification

53

Page 54: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

RNA‐SeqRNA Seq

• Transcriptome parTranscriptome par séquençage haut‐débit.

• On parle aussi de « deep sequencing » (Solexa)

• Précédé d’une étape de filtrage pour petits ARN dARN, permet de pêcher les miRNA, piRNA etcpiRNA, etc. 

intron

54

intron

Wang et al. Nature Reviews Genetics, 2009

Page 55: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

ChIP‐SeqChIP Seq

• ChIP Chromatin• ChIP=Chromatin immunoprecipitation

• Permet d’identifier les• Permet d identifier les sites de liaison de protéines (facteurs de p (transcription, represseurs, 

h )enhancers, etc.) sur l’ADN génomique

Wikipedia

55

Page 56: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

MetagénomesMetagénomes

F t d’ADN é é lé t i t à• Fragments d’ADN séquencés aléatoirement à partir d’un environnement donné

• Soit fragments ciblés (p. ex. ARNr 16S), soit ADN génomique

• Environnements étudiés:– Océan, intestin humain, drainage minier acide, g

• Applications:– Populations microbiennes (structure variations)Populations microbiennes (structure, variations)

– Découverte et séquençage de microorganismes

– Découverte de gènes/fonctionsDécouverte de gènes/fonctions

56

Page 57: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Vers une utilisation du séquençage pour d itoutes sortes de questions

• Transcriptome (fin des puces à ADN?)

$• Reséquençage, SNP (génome humain à 1000$)

• Détection d’agents infectieux / bioterrorisme

• …

57

Page 58: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Etat des programmes (2009)Etat des programmes (2009)

800 génomes bactériens (50 archae et 750 bactéries)– 800 génomes bactériens (50 archae et 750 bactéries) • 1er génome: haemophilus influenza (1995)

– Génomes eucaryotes:– Génomes eucaryotes: • 15 Levures

• 12 Drosophilesp

• Arabidopsis, riz, mais

• Humain, souris, rat… >20 mammifères

• Vertébrés: Fugu, Tetraodon, poulet, chordés..

• Protistes

Di i d illi d t it ( l i l t ti l )– Dizaines de millions de transcrits (pleine longueur et partiels)

– Dizaines de métagénomes (Sargasses, GOS, gut, etc…)

58

Page 59: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

EST data 2009EST data 2009

•Human: >5000 libraries (>600 cancer)

•Mouse: >500 libraries (>30 cancer)

Page 60: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

3. Structure et dynamique des génomes3. Structure et dynamique des génomes

L i t d éLes enseignements du séquençage

60

Page 61: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

La composition en séquence et ses variationsp q

• La règle de ChargaffLes règles d'appariement expliquent que quelque soit la quantité d'adénine (A)– Les règles d'appariement expliquent que, quelque soit la quantité d'adénine (A) dans l'ADN d'un organisme, la quantité de Thymine (T) est la même. De la même façon, G=C. 

– Mais les génomes ne sont pas uniformément constitués de 25%A, 25%T, 25%G,Mais les génomes ne sont pas uniformément constitués de 25%A, 25%T, 25%G, 25%C. 

– Il existe de grandes variations d'un génome à l'autre. Par exemple, les génomes d'archaebactéries sont généralement très riches en AT. 

61

Page 62: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Contenu en GC et isochores

– Il existe également de grandes variation à l'intérieur d'un génome. Par exemple, les régions transcrites sont souvents plus riches en GC que les régions non‐transcrites. 

– Le contenu en GC moyen du génome humain est 41% 

– On trouve pourtant des régions de plusieurs centaines de kb avec des contenus en GC de 33% ou 59%, ce qui représente une variation beaucoup plus grande que si la distribution était uniforme. 

L i ti t f it 15 f i é i à l i ti tt d i t t " " d– La variation est en fait 15 fois supérieure à la variation attendue, avec une importante "queue" de régions riches en GC. 

On a proposé que le génome soit constitué d'une mosaique de régions de composition homogène appelées isochores. 

En fait, on ne trouve pas de régions vraimentEn fait, on ne trouve pas de régions vraiment homogènes en composition, mais plutôt de régions plus ou moins riche en GC. 

Il existe une forte corrélation entre la richesse en GC et certaines propriétés: densité en gènes contenuGC et certaines propriétés: densité en gènes, contenu en répétitions, etc.

Un tiers du génome contient 50% des gènes (gene‐rich third)

62

Page 63: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Codant et nonCodant et non codant…

Chabalina et al. Genome Biology, 2004 63

Page 64: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Statistiques sur les gènesStatistiques sur les gènes

Gè t• Gènes procaryotes– longueur gène 950 nt. en moyenne (coli) 

– Densité en gènes. 95% du génome est transcrit chez E. coli.

Gè i é é 600 é d l– Gènes organisés en opérons. 600 opérons dans le génome de Coli.

64From « Genomes 2 », T.A. Brown

Page 65: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Gènes eucaryotesGènes eucaryotes

– Gène humain moyen: 8,8 introns, 27 kb, 3'UTR:770bp, 5'UTR:300bp, CDS:1340bp, exon moyen: 145 bp (218 bp pour C. elegans).

– Gènes "monstres": dystrophine: 2,4 Mb; Facteur de coagulation VIII: 186 kb, 26 exons; Tinine: CDS de 80780 bp, 178 exons

– Densité: humain: 1 gène tous les 150kb en moyenne; C.elegans: 1gène/5‐6kb (25%); S. Cerevisiae: 1 gène/2kb. From « Genomes 2 », T.A. Brown

R 22000 è d 30kb 0 7Gb d l è d tRemarque: 22000 gènes de 30kb en moyenne = 0,7Gb: donc les gènes codants représentent au moins 1/4 du génome humain (attention: seul 1.5% du génome est codant) 65

Page 66: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Gènes eucaryotes: les intronsGènes eucaryotes: les introns

– intron humain moyen: 3365 bpintron humain moyen: 3365 bp 

– Intron de ver moyen: 267bp 

– Intron de mouche moyen: 487bp 

– S. cerevisiae: 4% des gènes ont des introns, seulement 10 gènes sur 6200 en ont plus d'un10 gènes sur 6200 en ont plus d un. 

– H. sapiens: 95% des gènes ont des introns.

66

Page 67: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Relation taille / nb gènesRelation taille / nb gènes

Organisme Bp Genes ratio

Duplication  de fragments/ 

Organisme Bp Genes ratio

Escherichia coli 4 600 000 4288 1 000

Methanococcus jannashchii 1 660 000 1738 1 000

Amoeba dubia 670 000 000 000 ~5000? 134 000 000

gènesAmoeba dubia 670 000 000 000 5000? 134 000 000

Saccharomyces cerevisiae 13 000 000 5885 2 000

Erysiphe cichoracearum(champignon)

1 500 000 000 ~10 000? 150 000

Séquences répétées

Caenorhabditis elegans 100 000 000 ~14 000 7000

Drosophila melanogaster 170 000 000 ~12 000 14 000

Arabidopsis thaliana 120 000 000 ~26 000 5 000

Expansion des introns

Zea mays 5 000 000 000 ~20 000? 250 000

Allium cepa(oignon)

18 000 000 000 ~20 000? 900 000

Homo sapiens 3 400 000 000 ~22 000 150 000 intronsHomo sapiens 3 400 000 000 22 000 150 000

67

Page 68: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Structure des transcritsStructure des transcrits

68

Page 69: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Alternative SplicingAlternative Splicing

3 sex-determining genes in Drosophila:3 sex-determining genes in Drosophila:

69

Page 70: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Alternative splicingAlternative splicing

6000 (5% ith i t )6000 genes (5% with introns)3 cases of AS

18000 genes~10% AS

14000 genes~35% AS

22000

~35% AS

22000 genes Alternative splicing may compensate for relative scarcity of genes in vertebrates>85% AS

70

Page 71: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Alternative polyadenylationAlternative polyadenylation

Pre‐mRNA

Coding sequence

To 5' end

AUUAAAAAUAAA CA      GUUGU3' UTR

CA     GUUGU

AAAAAAAAA...

RNA l i i

AAAAAAAAA...

mRNA alternative transcripts

Humain: >60% Alt polyadenylationHumain: >60% Alt. polyadenylation

71

Page 72: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Alternative promoters

• Alternative promoters in UDP glucuronyl transferase (Carninci et al. 05)

72

Page 73: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Science, 2005

– 100,000 Full length cDNAs

– + 1M « CAGE » (sortes de SAGE en 5’)

Page 74: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Principaux résultats de « FANTOM3 »Principaux résultats de  FANTOM3

– 32000 transcrits non‐codants

– 16000 nouveaux transcripts codants

– 5000 nouvelles protéinesp

– La majorité du génome est transcrit sur les deux brins

– La grande diversité des transcrits dans chaque Unité deLa grande diversité des transcrits dans chaque Unité de Transcription soulève le problème de la précision des puces  ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits 

Page 75: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Utilité des full‐lengths et des CAGEUtilité des full lengths et des CAGE

– Etude des promoteurs (impossible avec les EST)EST)

– Transcription Starts Sites (TSS) alternatifs, exons 5’ alternatifsexons 5  alternatifs

Page 76: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Visualisation des démarrages de transcription d l è 3’ l CAGEdans les gènes et en 3’ par les CAGE 

Page 77: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Transcrits et Unités de TranscriptionTranscrits et Unités de Transcription

TU: Transcription Unit mRNAs sharing at– TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation

– D’après les résultats FANTOM3: >7 transcrits différents par TU

Page 78: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

ExempleExemple d’annotation 

CAGECAGE + cDNA

Genome Browser

d laboratoiredu laboratoire

Riken

Page 79: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Transcrits chevauchants et antisensTranscrits chevauchants et antisens 

Page 80: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Junk DNA: les séquences répétées dans le é h igénome humain

• 5 classes de séquences répétées – Répétition de type transposon (ou interspersed repeats)– copie rétro‐transposées inactives de gènes (protéines ou ARN) (processed pseudogenes)– copie rétro‐transposées inactives de gènes (protéines ou ARN) (processed pseudogenes) – Répétition simples de k‐mères courts, p. ex. (A)n, (CA)n ou (CGG)n – Segments dupliqués: blocs de 10–300 kb copiés d'une région à l'autre – Blocs de séquences répétes en tandems (centromères, télomères, clusters de gènes 

ib i )ribosomiques) 

• Un ADN pas si "poubelle" que ça qui joue un grand rôle dans la transformation des gènes et l'apparition de nouveaux gènes. 

• Il y a des régions pauvres en répétitions (p. ex. région des gènes HOX) et des régions riches (région de 500kb du chr. 11 contenant 89% d'éléments transposables) 

• Les répétitions humaines sont relativement anciennes comparées à celles qu'on trouve dans le génome de drosophile Notre génome a des difficultés pour se débarasser desdans le génome de drosophile. Notre génome a des difficultés pour se débarasser des répétitions.

80

Page 81: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Retroposons et pseudogènesRetroposons et pseudogènes

Deux mécanismes proches

From « Genomes 2 », T.A. Brown81

Page 82: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Séquences répétées de type transposonSéquences répétées de type transposon

é é é é d é l d /3 d• Les séquences répétées de type transposon représentent plus de 1/3 du génome des vertébrés

• Génome humain: 45% !! 

82

Page 83: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

LINES (Long interspersed repeated sequences)LINES (Long interspersed repeated sequences) 

– 21% du génome humain (850.000 copies). Le plus commun de ces éléments est L1: 6kb. – Contiennent un promoteur Pol‐II et 2 ORFs. – Après traduction, l'ARN LINE s'assemble avec ses propres protéines et se déplace vers le 

noyau où l'ARN est reverse transcrit et s'insère dans le génome au niveau d'une coupure simple brin. La transcription inverse s'interrompt souvent avant terme, créant de nombreux i t t é (l l t f it)inserts tronqués (la plupart en fait) 

– La machinerie LINE est responsable également de la retrotranscription des éléments SINE. – Il y a en fait trois familles de LINE dans le génome humain (LINE1, LINE2, LINE3), mais seule L1 

est active. 

>L1 element| Human L1 interspersed repetitive sequence-full length copy ggcggtggagccaagatgaccgaataggaacagctccagtctatagctcccatcgtgagt gacgcagaagacgggtgatttctgcatttccaactgaggtaccaggttcatctcacaggg

t t t t t t t t taagtgccaggcagtgggtgcaggacagtagtgcagtgcactgtgcatgagccgaagcagg gcgaggcatcacctcacccgggaagcacaaggggtcagggaattccctttcctagtcaaa gaaaagggtgacagatggcacctggaaaatcgggtcactcccgccctaatactgcgctct tccaacaagcttaacaaatggcacaccaggagattatatcccatgcctggctcagagggt cctacgcccatggagcctcgctcattgctagcacagcagtctgaggtcaaactgcaaggt ...

83

Page 84: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

SINEs (Short interspersed repeated sequences)SINEs (Short interspersed repeated sequences)

– Contiennent un promoteur pol‐III mais pas d'ORF 

– Vivent sur le dos des LINE 

13% du génome humain 3 types: Alu MIR et Ther2/MIR3– 13% du génome humain. 3 types: Alu, MIR et Ther2/MIR3. 

– (1 500 000 SINEs par génome humain haploide, dont 1 000 000 Alu)

– La plus connue est ALU, la seule SINE active: 290 bp constitué de 2 répétitions en tandem de 130 bp. 

– On ne trouve pas ces séquences dans les régions codantes, mais souvent dans l'unité de transcription, soit dans les introns, soit dans les parties non traduites des ARNm. 

>ALU | Human ALU interspersed repetitive sequence - consensus A ggccgggcgcggtggctcacgcctgtaatcccagcactttgggaggccgaggcgggcgga tcacctgaggtcaggagttcgagaccagcctggccaacatggtgaaaccccgtctctact aaaaatacaaaaattagccgggcgtggtggcgcgcgcctgtaatcccagctactcgggag gctgaggcaggagaatcgcttgaacccgggaggcggaggttgcagtgagccgagatcgcg

ccactgcactccagcctgggcgacagagcgagactccgtctcaaaaaaaa

84

Page 85: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Autres transposonsAutres transposons

• Retrotransposons à LTR – Long terminal repeats avec tous les éléments de régulation de 

transcription 

– A l'intérieur: protease, reverse transcriptase, RNAse H et integrase 

– L'acquisition du gène env suffit pour en faire un véritable rétrovirusL acquisition du gène env suffit pour en faire un véritable rétrovirus exogène. 

T ADN• Transposons ADN – Ressemble aux transposons bactériens 

– Flanqué par répétitions inversées a qué pa épét t o s e sées

– Code pour une transposase 

– Au moins 7 classes de transposons ADN dans le génome humain 

85

Page 86: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Autres séquences répétéesAutres séquences répétées

• Les répétitions simples (Simple Sequence Repeats ‐ SSR) p p ( p q p )– Répétition parfaite ou non d'un fragment de longueur k (k‐mère). – Fragment court (1 à 13b): microsatellite – Fragment long (14 à 500b): minisatellite 

Représentent 3% du génome humain 0 5% provenant des répétitions de dinucléotides (85%– Représentent 3% du génome humain, 0,5% provenant des répétitions de dinucléotides (85% AC ou AT). 

– Un SSR tous les 2kb en moyenne 

• Les duplications de segments – Blocs de 1 à 200kb transférés entre différentes positions du génome (inter ou intra‐

chromosomique) – Exemple sur chromosome 17: 3 copies d'un segment de 200‐kb séparées par environ 5 Mb + 2 

copies d'un segment de 24‐kb séparées par 1.5 Mb. – Génome humain: représentent 3,6% du génome (à un niveau > 90% identité). – Arabidopsis: 58% du génome est constitué de segments dupliqués 

• Péricentromères et subtelomèresChaque centromère est constitué de zones de duplication interchromosomique– Chaque centromère est constitué de zones de duplication interchromosomique. 

– P. ex. le Chromosome 22 contient une region de 1.5 Mb adjacente au centromère constituée à 90% de duplications interchromosomiques (en provenance d'autres chromosomes). 

– Ces duplications sont complexes, avec de nombreux évènements, souvent récents, séparés par des répétitions de type minisatellite riches en AT ou en GCpar des répétitions de type minisatellite riches en AT ou en GC. 

86

Page 87: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Evolution et variation des génomes

87

Page 88: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Réarrangements chromosomiquesRéarrangements chromosomiques

– Translocations

– Inversions

– Délétions

88

Page 89: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Duplications, apparition des nouveaux gènesDuplications, apparition des nouveaux gènes

D li i• Duplications– Duplication du génome entier ou polyploïdisation (plusieurs cas chez les 

eucaryotes, par exemple chez les téleostéens, principale classe de i )poissons)

– Duplication d’un gène ou d’un groupe de gènes (fréquent)– Duplication d’un chromosome ou d’une partie (rare car délétère)– La duplication est suivie le plus fréquemment de la perte de gènes: 90% 

des gènes dupliqués à l’origine des vertébrés auraient été perdus depuis. 

• Transferts horizontaux– Très important entre génomes procaryotes– Arrive de procaryote à eucaryote

89

Page 90: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Role des éléments transposablesRole des éléments transposables

Par leur capacité à initier des recombinaisons entre– Par leur capacité à initier des recombinaisons entre différentes parties du génome (dû à leurs séquences presque identiques)presque identiques)

– Par la création de nouveaux éléments fonctionnels (exaptation)( p )• Exons

• Enhancers

90

Page 91: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

L’apparition des intronsL apparition des introns

(Concerne les introns de type GT AG pas les introns catalytiques– (Concerne les introns de type GT‐AG, pas les introns catalytiques issus du RNA world)

• 2 hypothèses2 hypothèses– « Intron early ». Les introns étaient présents dans l’organisme 

ancestral (y compris les bactéries). Ils disparaissent petit à petit. 

– « Intron late »: apparition chez les premiers eucaryotes, puis prolifération

– Aucune hypothèse n’est clairement réfutée à ce jourAucune hypothèse n est clairement réfutée à ce jour• Disparition des introns chez les levures

• Augmentation chez les metazoaires

91

Page 92: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

La synténieLa synténie

Le séquençage des premiers génomes a révélé que l’ordre des gènes était beaucoup moins conservé que les séquences.

Une région observée chez deux organismes est dite synténique lorsqu'elle n'a pas subi de réarrangement depuis l'ancêtre commun de ces deux organismes. 

Humain/souris: environ 150 réarrangements. Régions synténiques de 8,8cM en moyenne. 

Chlamidia trachomatis / chlamydophila pneumoniae

92

Page 93: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

En quoi nos génomes diffèrent‐ils?En quoi nos génomes diffèrent ils?

• Les individus d’espèces différentes ont des génomes différents par la taille l’ordre et la nature des informationsdifférents par la taille, l ordre et la nature des informations qu’ils contiennent.

• On considère souvent que 2 individus de la même espèceOn considère souvent que 2 individus de la même espèce possèdent le « même » génome. 

• En fait, le génome de chaque individu est unique. Chez g q ql’homme le génome diffère de 0.5% entre 2 personnes non apparentées 

93

Page 94: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

La ressemblance entre génomesg

• Homme A / homme B– 99,5% identique (0,5% différence)

• Homme/chimpanzé– Codant: 98 5% identiqueCodant: 98,5% identique– Non codant: ~97% identique– Quelques duplications/délétions importantes de région de quelques 

dizaines de kbdizaines de kb

• Homme/souris – Codant: 90% identique

N d t l j ité t id tité t i t– Non codant: la majorité est sans identité apparente, mais on trouve quand même de nombreux segments semblables (« conservés ») 

• Homme/pouletd d– Codant: 80% identique

• Homme/poisson– Codant: 70% identique

94

Page 95: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les variations du génome dans une l ipopulation

• Très importantes médicalement– Pharmacogénomique: comment chaque patient répond aux drogues

– Marqueurs de susceptibilité aux maladies

• Polymorphismes dans le génome humain• Polymorphismes dans le génome humain – Insertions, délétions, duplications, réarrangements 

• rares et peu étudiés

– Microsatellites etc.. 

– Single Nucleotide  Polymorphism (SNP)

95

Page 96: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Single Nucleotide Polymorphism (SNP)

Le polymorphisme le plus commun chez l'homme. Stable Beaucoup n'ont pas d'implications fonctionnelles 1 SNP tous les 100 à 300 nt. 3 200 000 dans le génome. En comparant 2 individus, on trouve un SNP toutes les 

/1000/2000 bases. 

ApplicationsLes SNP constituent une trace historique pour l'étude de la phylogénie humaine: ils mutent lentement et ont peu de chance de réapparaître de façon récurrente. 

à l' i i d ibili é dLes SNP sont à l'origine de susceptibilité ou de résistance à de nombreuses maladies. Cartographie de maladies à caractères complexes (cancers diabète maladies mentales)(cancers, diabète, maladies mentales) Prédiction des réponses aux drogues.

96

Page 97: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

HaplotypesHaplotypes

– Haplotypes: combinaison d'allèles tendant à ê bl ( d d kb d

Chromosome 21: Fragment de 106kb contenant 18 blocs 

être transmis ensemble (qq dizaines de kb de long) 

– Les SNP sont parfaitement adaptés pour identifier les haplotypes

haplotypes

identifier les haplotypes

– Chaque haplotype existe en quelques versions dans la population 

– Dans l’exemple ci‐contre une région de 19kb

26 SNP, 19kb

Dans l exemple ci contre une région de 19kb est dominée par 4 haplotypes 

– 2 SNP suffisent pour repérer l’haplotype d’un patient

– Evite des reséquençages

The Scientist, mai 2004

populationpopulation

97

Page 98: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Le génome du Dr. VenterVenter

PloS Biology, 2007

Pour la première fois: deux jeux de chromosomes (maternel et paternel)  entièrement séquencés. p ) qDifférence de 0,5%

98

Page 99: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les banques de données génomiques

99

Page 100: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Genbank: La banque d’ADN du NIHGenbank: La banque d ADN du NIH

• Etat Dec 2009 – 110x109 bases

110 106 é– 110x106 séquences

– Genbank double environ tous les 14 mois depuis ses débuts 

1982en 1982. 

– Nouvelle version tous les 2 mois

100

Page 101: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Divisions de GenbankDivisions de Genbank

– ESTs (Expressed sequence tags): Principale division ed Genbank 18 106Principale division ed Genbank. 18 10sequences, 580 organismes différents

– GSS (Genome Sequence Survey): résultats de séquençages aléatoire de ésu tats de séque çages a éato e deBAC, dans le cadre de projets Génome. Non assemblées, courtes.

– HTGS (High Throughput Genomic Sequences): séquences génomiques en cours d’assemblage. Une fois complètement assemblées, les séquences passent dans les divisionsséquences passent dans les divisions « organisme ».

– Bacteries (BCT), virus (VRL), primates (PRI), rongeurs (ROD) etc: divisions(PRI), rongeurs (ROD) etc: divisions « organismes ».

– SRA: Sequence Read Archive (Séquences Ultra‐haut débit)

– ~20 divisions en tout. Organismes dans Genbank (en 2002)

101

Page 102: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Enregistrement GenbankEnregistrement Genbank

– Chaque enregistrement se voit attribuer un numéro d’accession, stable et unique, et chaque séquence un numéro GI. 

– Quand un changement est effectué dans un enregistrement Genbank, le g g ,num. d’accession reste, le GI change.

102

Page 103: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Enregistrement Genbank avec annotationEnregistrement Genbank avec annotationLOCUS L10986 47233 bp DNA linear INV 21-SEP-2004DEFINITION Caenorhabditis elegans cosmid F10E9, complete sequence.ACCESSION L10986VERSION L10986.2 GI:38638818VERSION L10986.2 GI:38638818KEYWORDS HTG.SOURCE Caenorhabditis elegansORGANISM Caenorhabditis elegans

Eukaryota; Metazoa; Nematoda; Chromadorea; Rhabditida;Rhabditoidea; Rhabditidae; Peloderinae; Caenorhabditis.

REFERENCE 1 (bases 1 to 47233)AUTHORS .AUTHORS .CONSRTM WormBase ConsortiumTITLE Genome sequence of the nematode C. elegans: a platform for

investigating biology. The C. elegans Sequencing ConsortiumJOURNAL Science 282 (5396), 2012-2018 (1998)MEDLINE 99069613PUBMED 9851916

FEATURES Location/Qualifiers

BASE COUNT 2598 a 2024 c 1888 g 2449 tORIGIN

1 ttctaaaagt cgaaaaacga gcaatttttg atgctagatt ttttgatttg acgaattttt61 tcagtttttt ttctttaaaa aaggtttttg accccttaaa gttttccttt cccttccaat

121 tttttccttc tttcttatac gacttctcaa gtttcaactc taaaacaaag ctacatgtac181 atttccggta aactttgtgt ctcagaagat ccattttctt tttgttacat ttattcaaga241 ttgaattcca aaatttcagc caatatggac agttgcgaag aggaatgcga tctggaagttFEATURES Location/Qualifiers

source 1..47233/organism="Caenorhabditis elegans"/mol_type="genomic DNA"/strain="Bristol N2"/db_xref="taxon:6239"/chromosome="III"/clone="F10E9"

241 ttgaattcca aaatttcagc caatatggac agttgcgaag aggaatgcga tctggaagtt301 gacagtgacg aagaagatca actttttggt gaaaagtggt gagttcttat tgtggtaacc361 aaagaaatgt cagtggtccg taaacacttg actcccaaat ggtttctcgt aattacctta421 tgcacacttt tcaagtgttt gccgtttgat cttagccaat ttgaaacgtt tagatgttaa481 atggaaaatg ggtaaagttt tttattttat agaaaaaagg tttggaaaaa aatcgagtca541 ctgaatagtt tgaagaacgg aaaaataaaa ctttccaaaa atcataaaac atttagtgtt601 tcgaaaatta tagtgttttt tttgttggta tgttttgaca aaagctaaac catctttatt661 gtagttttgt aaaatgttca caaagatgcg tttttttttc aaatttggca ggctatcttt721 acattcacat ttggataatt caaatttttc ttatcgctaa caaattttcc tatttttcca/

gene 265..26728/gene="mig-10"/locus_tag="F10E9.6"

CDS join(265..338,3266..3515,15194..15317,21507..21602,21727..21887,23171..23335,24302..24472,24524..24608,25012..25827,26284..26430,26478..26728)/gene="mig-10"

gg g781 attattcgtt tttataaagc tttggtagta tgttgtgtct atctttagtg gtcatcagtt

. . .//

/g g/translation="MDSCEEECDLEVDSDEEDQLFGEKCISLLSSLLPLSSSTLLSNA

INLELDEVERPPPLLNVLEEQQFPKVCANIEEENELEADTEEDIAETADDEESKDPVEKTENFEPSVTMDTYDFPDPYPVQIRARPQVPPKPPIDTVRYSMNNIKESADWQLDELLEELEALETQLNSSNGGDQLLLGVSGIPASSSRENVKSISTLPPPPPALSYHQTPQQPQ

. . .QVYTGIGWEKKYKSPTPWCISIKLTALQMKRSQFIKYICAEDEMTFKKWLVALRIAKNGAELLENYERACQIRRETLGPASSMSAASSSTAISEVPHSLSHHQRTPSVASSIQLSSQ Q QHMMNNPTHPLSVNVRNQSPASFSVNSCQQSHPSRTSAKLEIQYDEQPTGTIKRAPLDVLRRVSRASTSSPTIPQEESDSDEEFPAPPPVASVMRMPPPVTPPKPCTPLTSKKAPPPPPKRSDTTKLQSASPMAPAKNDLEAALARRREKMATMEC"

. . .

103

Page 104: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Autres banques nucléotidiquesAutres banques nucléotidiques

• EMBL: Equivalent européen de Genbank. Format différent, contenu presque identique.

• DDBJ: équivalent au Japon

B é i li é C i ll i d é bi• Banques spécialisées Certaines collections de séquences, bien que généralement présentes dans Genbank, sont beaucoup plus utiles lorsqu'elles sont rassemblées dans des banques p q qspécialisées, par ex: – Récepteurs des lymphocytes T (Réarrangements de l'ADN) 

– Génomes HIV, etc.

• Banques pour BlastNR nucléique (« Non redundant ») All GenBank+EMBL+DDBJ+PDB– NR nucléique (« Non‐redundant »). All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). (n’est plus “non‐redondant”)

DbEST: dbest Database of GenBank+EMBL+DDBJ sequences from EST– DbEST: dbest Database of GenBank+EMBL+DDBJ sequences from EST Divisions

104

Page 105: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Banques protéiquesBanques protéiques

– Swissprot. La mieux annotée des banques protéiques. p q p q2008: 260.000 entrées. • Attention: toutes les protéines connues n'y sont pas! 

– TrEMBL: banque de protéine produite automatiquement. 2008: 4.200.000 entrées

– Uniprot=Swissprot+TrEMBL 

– Dizaines de Banques spécialisées• Cazy (Carbohydrate Active Enzymes)

• Etc.

Pour Blast– Pour Blast• NR Protéique (Non‐redundent): Banque protéique du NCBI = Traduction de tous les CDS de GenBank + PDB + SwissProt + PIR + PRF ‐ redondances. 

105

Page 106: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Ensembl (www.ensembl.org)Ensembl (www.ensembl.org)

– Plusieurs banques en une: • Peptides confirmés 

• Transcrits confirmés

• peptides prédits 

• Transcrits prédits

• Génome assemblé (golden path) 

– + un genome browser

– Méthode de prédiction (système Genewise): Genscan sur contig, puis Blast contre: protéines, mRNA, EST

Génome humain version Sep 2008 (NCBI 36) : Confirmed protein coding– Génome humain version Sep 2008 (NCBI 36) : Confirmed protein‐coding genes: 21649; RNA genes: 4810; Predicted genes (Genscan): 49796; base pairs: 3,25 109. 

106

Page 107: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Ensembl Species (2009)Ensembl Species (2009)

107

Page 108: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Ensembl: « contig view »

108

Page 109: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Genome browser UCSC

– http://www.genome.ucsc.edu/

109

Page 110: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

EntrezEntrez

110

Page 111: Des Génomes aux StèSystèmes - rssf.i2bc.paris-saclay.fr

Les bases de données de transcrits alternatifsLes bases de données de transcrits alternatifs

ASAP• ASAP, AltExtron, ASTDASTD, …

ASAP interface (Lee (et al. 2003)