La cartographie des génomes - [Biologie Végétale de...

Post on 15-Sep-2018

220 views 0 download

Transcript of La cartographie des génomes - [Biologie Végétale de...

La cartographie des génomes

Séquençage d’un génome

• Séquenceur actuel : 1000 pb• Partie séquençable génome humain : 2,9

milliards pb (2,9 Gb)• Génome humain total : 3,2 Gb• On ne peut pas séquencer en un seul

coup !!

Couper l’ADN en petits fragments

Aligner les ≠ séquences

BamHI

BamHI

PstI

PstI

EcoRI

EcoRI

Librairie ADN Séquençage

AA

TGCC

TGA

CGA

TTCG

ACC

AA

TGCC

TGA

CGA

TTCG

ACC

CATT

GCGG

ATA

TTA

CGCA

TCGG

GAA

CTCA

CATT

GCGG

ATA

TTA

CGCA

TCGG

GAA

CTCA

GGTT

AGT

ACC

ATG

CCTG

GAA

CTGA

CACT

GACG

TACA

GTGG

TTA

GTA

CCA

TGCC

TGGA

ACT

GACA

CTGA

CGTA

CAGT

CATT

GACG

TACG

TACG

CATT

GACG

TACG

TACG

Méthode shotgunADN

500pb Digestion par ≠ enzyme de restriction

…GCAGCCAATGCCAATGCATTA…

Recouvrement de qqs 10aines de pb : Les 2 séquences sont liées entre elles

Assemblage de séquences maîtresses

Séquence maîtresse

ProblèmesMéthode bien adaptée au séquençage de

petits génomes procaryotes

Grands génomes : Complexité d’aligner les fragments

Grands génomes : Séquences répétées

Répétition en tandem

GATTA GATTA GATTA GATTA GATTA

Recouvrement incorrecte

GATTA GATTA GATTAGATTA GATTA

Les mêmes motifs de répétition en tandem peuvent être localisées dans

tout le génome !

(GATTA)4 (GATTA)6 (GATTA)8

Recouvrement incorrect

GATTA GATTA GATTAGATTA GATTA

Grandes répétitions dispersées…GCATAGCTTAGC…

…GCATAGCTTAGCGCATAGCTTAGC…

Recouvrement incorrect

Il faut des balises pour assembler les séquences

maîtresses

Carte génétique ou carte physique des génomes

ADN

500pb

A B C D E F G

Approche clone contigGénome fractionné en segments gérables

Qqs centaines kb ou qqs Mb

Méthode séquençage shotgun sur les fragments

Les fragments sont positionnés grâce àune carte

Carte génétique (analyse des liaisons)

Position relative de gènes ou d’autres marqueurs

Croisements et recombinaison

Unité de distance = cM

1 cM = 1 % de recombinaison

Il faut de la variabilité : Polymorphisme

Homme : Analyse de pedigree

Ières cartes génétiques = Cartes de gènes

Analyse de pedigree

Homme : Carte de recombinaison

Problème des cartes de gènes

Génomes eucaryotes : Peu de gènes et très dispersés

Marqueurs de l’ADN (RFLPs, SSLPset SNPs)

Cartes peu détaillées

Marqueur SSLP (Simple SequenceLength Polymorphism)

SSLPs : Zones de séquences répétées avec variation de tailles

SSLPs : Les plus utilisés = Microsatellites

MicrosatellitesSéquences courtes (2 à 10Pb)

Répétées en tandem de <10 à >100 fois

Motifs : Milliers de copies dispersées dans tous le génome

Nbre de répétition du tandem est très variable

Génome humain : 6.5 x 105 µsat.

En moyenne 1 µsat. / 10 000 pb

Variation de Séquence microsatellite chez Brassica

Cartes physiquesCartes génétiques : Généralement

insuffisantesRésolution cartes génétiques : Fonction nbre

de crossing over (Pb d’estimation)

Cartes génétiques : Assomptions de Sturtevant

Zones de points chauds et de points froids

Nombreux points de non concordance

De nbeuses

distorsions

Des ordres de marqueurs inversés!

Carte génétique et carte physique du chromosome 11 de l’homme

Cartes physiques

Carte physique de restriction → Localiser les sites de restriction

FISH → Fluorescent In Situ Hybridization

STS mapping → Sequence Tagged Site

Carte physique de restriction

Obtenir une carte physique des sites

de restriction

Gel d’agarose contenant des

fragments d’ADN amplifiés, colorés

(bromure d’éthidium)

Les + petits fragments migrent

plus loin que les grands

Dépôt sur gel et migration avec un marqueur de taille

(ladder)

Une population d’ADN cloné est préparé

Coupure par des enzymes de restriction

Amplification (PCR)

10,0 kb

Ladder

7,5 kb

5 kb

2,5 kb

1 kb0,5 kb

Non coupé HindII SalI

HindIIet SalI

7,0 kb

6,2 kb

0,8 kb

5,8 kb

1,2 kb0,8 kb

0,4 kb

5,8 kb

HindII

6,20,8

0,80 7

0,86,2

0,80 7

5,81,2

1,20 7

0 7

SalI

5,8 1,2

1,2

Faire des hypothèsesHindII

6,20,8

0,80 7

SalI

0 7

5,8 1,2

1,2

HindII et SalI

3 fragments de 0,8 kb, 5 kb et 1,2 kb

REJETER

HindII et SalI

3 fragments de 0,8 kb, 0,4 kb et 5,8 kb

ACCEPTER5,81,2

1,20 7

HindII

6,20,8

0,80 7

SalI

Organisation du génome des eucaryotes

3 - Génomique structurale

Saccharomyces cerevisiae Ascomycota(levure du boulanger)

Respiration → Transformation anaérobique 02 en CO2 (pain…etc)

Fermentation alcoolique du glucose (vin, bière)

Premier eucaryote séquencé (1996)

13 Mb et 6 275 gènes (23% commun avec H. sapiens)

Caenorhabditis elegans Nématode

100 Mb et 19 000 gènes (6 chromosomes)

Organisme totalement transparent (1000 ¢ )

Vers 1mm hermaphrodite ou ♂

Vit dans l’humus et se nourrit de bactéries

Comportement (302 neurones) et biologie du dévent

Séquençage 1998

Drosophila melanogaster Diptère

150 Mb et 13 000 gènes (4 chromosomes)

Séquençage 2000

Arabidopsis thaliana Angiosperme

Le plus petit génome végétal connu

125 Mb et 25 000 gènes (5 chromosomes)

Séquençage 2001

Homo sapiens sapiens

3 Gb et 30 000 gènes

Séquençage 2003

Caractéristiques du génome humain

3 Gb : 30 000 gènes (5% séquences codantes)

50% génome : Éléments transposables

40% gènes (12 800) : sans fonction connue

Distribution des gènes : non uniforme (des déserts (20%) et des zones riches)

Homme: Il y a des chromosomes denses en gènes et des chromosomes

pauvres

• Chromosome 19 (le + riche) → 23 gènes / Mb (3%)

• Chromosome 13 (le + pauvre) → 5 gènes /Mb (0.7%)

Chromosome 21 (46,9 Mb) : 337 gènes (1 gène / 140 kb

Chromosome 22 (49,5 Mb) : 693 gènes (1 gène / 70 kb

Région pauvre en gènes → 1 gène / 304 kb

Région riche en gènes → 1 gène / 95 kb

Homme: hétérogénéité dans les chromosomes (ex. Chromosome 21)

Plusieurs région presque dépourvues de gènes : 7 Mb (1 gène), 3 régions 1 Mb (pas de gènes) : Total 10 Mb

Des régions dupliquées → 220 kb (2 extrémités bras long); 10 kb (près du centromère)

Taille du génome et Nbre de gènes

• Mitochondrie levure ~ 78 kb• Mitochondrie homme ~ 17 kb• Chloroplaste 140 ~ 200 kb• Archée M. jannaschii ~ 1,6 Mb• Bactérie E. coli ~ 5 Mb• Levure S. cerevisiae ~ 13 Mb• Nématode C. elegans ~ 100 Mb• Drosophile ~ 150 Mb• Plante A. thaliana ~ 120 Mb• Homme ~ 3 000 Mb

• 34 gènes• 37 gènes• 136 gènes• 1 738 gènes• 4 000 gènes• 6 000 gènes• 19 000 gènes• 13 000 gènes• 25 000 gènes• 30 000 gènes

103 104 105 106 107 108

Bactéries

Champignons

Algues

Mollusques

Insectes

Crustacés

Échinodermes

Poissons

Amphibiens

Reptiles

Mammifères

Oiseaux

Angiospermes

Taille du génome (kb)

Paradoxe de la valeur de C • C : Qté totale d’ADN d’un génome haploïde• En général C augmente des procaryotes →

Eucaryotes uni¢ → Métazoaires et plantes• MAIS énorme variation entre compléxité (et

nbre de gènes) et valeur de C• Paradoxe → Divergence entre C et ADN

requit pour coder la complexité d’un organisme

Paradoxe de la valeur de C: La complexité n’est pas corrélée avec

la Qté d’ADN

3.4 x 109 pbHomo sapiens

6.7 x 1011 pbAmoeba dubia

Paramecium caudatumParamecium aureliaNon distinguables en morphologie et en phénotypes

P aurelia : ADN 200 000 kbP caudatum : ADN 9 000 000 kb

P caudatum = 45 X ADN de P. aurelia et 3 X ADN H. sapiens

Paradoxe de la valeur de K: La complexité n’est pas corrélée avec le nbre de chromosomes

46 250

Ophioglossum reticulatumHomo sapiens Lysandra atlantica

1260

Paradoxe de la valeur de N: La complexité n’est pas corrélée avec

les nbre de gènes

~31,000 genes~31,000 genes~26,000 genes~26,000 genes~50,000 genes~50,000 genes

19,000 19,000 ggèènesnes 13,600 13,600 ggèènesnes~10~1088 cellulescellules~10~1033 cellulescellules

Coenorbitis Drosophila

On observe généralement:• Excès d’ADN par rapport à ADN requit

pour coder toutes les protéines et ARN• Énormes variations entre organismes de

complexité comparables

Pourquoi ce paradoxe?• ADN non codant • ADN répétitif• Introns

RégionsintergéniquesADN poubelle(junk DNA)

Introns (junk)Exons

5%5%

Le Le ggéénomenomeestestvide !vide !

Génomique structurale

• Organisation des séquences d’ADN dans le génome

• Organisation du génome• Fait appel aux techniques d’amplification

(PCR)• Séquençage• Clonage d’ADN

Génome humainTous les individus sont ≠ MAIS

ADN entre individus ≠ varie sur 0.2 % ou moins

Seulement 1 lettres / 1400 est ≠ entre ind.

De 2 à 3 millions de lettres de différence entre 2 ind.

ADN Eucaryotes

Gènes fonctionnels en simple copie

ADN répétitif ADN intercalaire

Séquence fonctionnelles

Séquence sans fonctions connues

Familles de gènes codantes

(et pseudogènes)

Séquences fonctelle

non codantes

Familles de gènes dispersées

Familles de gènes en tandem

Répétition hétérochromatine

centromère

Répétition en tandem variables

Séquences transposées

Transposons Retrotransposons

3 – 1 - Gènes fonctionnels en simple copie

Gène• Ancienne déf. : Séquence d'ADN qui

code pour une chaîne polypeptidique ou une molécule fonctelle d'ARN

• Pb. : des gènes régulateurs non transcrits

• Activateurs (enhancers) et inhibiteurs (silencers)

• Activateurs et inhibiteurs peuvent se trouver très loin d’une séquence transcrite

Gène

• Une région transcrite + une séquence régulatrice de transcription

• Segment d'ADN qui a une fonction spécifique

• Unité fonctelle du gène : Région transcrite + toutes les séquences de régulation

3 types de gènes

• Gènes de structures (G1) : codent pour une protéine (transcription et traduction)

• Gènes uniquement transcrits (G2) : ARN non traduits

• Gènes régulateurs (G3) : non transcrits • régulation de la réplication• recombinaison• fixation de protéines ou d'hormones sur

l'ADN

Nature des gènes G1 et G2

• Région d’ADN transcrite en ARN

Région codante

ADN de procaryote

Zone de régulation

Zone de fin de

transcription

Région codante (exons)

ADN eucaryote

Zone de régulation

Zone de fin de

transcription

Introns

Introns

Séquences intragéniques transcrites et éliminées (épissage) : maturation ARNm

Séquences d’ADN non fonctelles intercalaires des exons

Souvent : zones de localisation des ARN interférents (ARNi)

EpissageEpissage

Gènes eucaryotes (exons & introns)

Nombre moyen d’introns

• Saccharomyces cerevisiae : 1• Drosophila melanogaster : 4• Caenorhabditis : 5,2 (taille 0,12 Kb)• Poulet : 9• Mammifères : 7 (de 1 à > 60)• Homme : 7,7

Organism # Chromosomes # Genes Exons Introns

Mycoplasmagenitalium

1 500 5001/gene

0

Deinococcusradiodurans

2 3200 35001.02/gene

61

Saccharomycescerevisiae

16 6200 65001.04/gene

220

C. elegans 6 18,000 91,0005/gene

73,0004/gene

Drosophilamelanogaster

5 14,000 54,0004/gene

44,0003/gene

60 bp/intronArabodopsisthaliana

5 25,000 133,0005/gene

247bp/exon

107,0004/gene

169 bp/intronHomo sapiens 23 30,000 310,000

8+/gene455 bp/exon

250,0007/gene

3400 bp/intron

Variabilité intrasp. en nbred’introns

• Histones : Pas d’introns• Gène du collagène pro-α2 du poulet : 50

introns • Gène protéine musculaire titine 283 kb :

363 exons

Variabilité en taille

Gène Taille µintrons (pb)

tRNAtyr 20Insuline 480Classe I HLA 260

Collagène 190Complément C3 900

Facteur VIII 7100CFTR 9100

Titine 466

Dystrophine

kb Nbre

exons

0.1 21.4 33.5 831 11841 29

186 26250 27283 363

2400 79

Taille µexons (pb)

5015518777122375227315

180 30770

Homme

La plupart des exons sont des petites îles dans une mer

d’introns

Introns

Majorité des introns eucaryotes : épissage par splicéosome

1% du génome humain (ou de la levure) code pour des pièces du splicéosome

Splicéosome : une machine moléculaire (ribonucléoprotéine) aussi complexe que le

ribosome

TGA

TAA

TAG

AGGT AATAAAIntron Exon

Règle GT-AG

Codon stopSignal de

polyadénylation(queue de polyA)

Règle GT-AG : début d’intron GT – Fin d’intron AG

Jonction exon-intron : séquences hautement conservées = Quasiment toutes les jonctions chez

tous les eucaryotes

3' UTR

La grande majorité des splicéosomes fonctionnent avec introns GT-AG

Qqs splicéosomes fonctionnent avec d’autres introns

Introns GT-AG : dans toute la lignée eucaryote

Les introns à splicéosomes étaient présent dans la lignée primitive eucaryote !

Il existe des introns àautoépissage

Thomas Cech et al. 1982 : Tetrahymena (protozoaire cilié)

Découverte des ribozymes : ARN à propriétécatalytique

Des introns à ribozyme : capables de s’autoexciser !

Les introns sont un coût métabolique important

Synthèse d’ADN et d’ARN supplémentaire

Une machinerie nécessaire pour détecter/éliminer les mauvais transcrits

1/3 des désordres génétiques humains : mutations qui causent une mauvaise reconnaissance des sites

d’épissages !

Erreur d’épissage : mauvais transcrits

Origine des introns2 hypothèses

Des frontières de fusions entre miniprotéines(minigènes) primitives (introns précoces)

Des éléments mobiles insérés (introns tardifs)

Introns précoces

9 introns

Intron/Exon structure of the chicken pyruvate kinase geneN. Lonberg & W. Gilbert

Cell 40: 81-90, 1985

Divisent les séquences codantes en pièces de taille uniforme qui

codent pour les éléments discrets de la structure IIaire

Pas d’insertion au hasard mais produit de l’évolution du 1er gène pyruvate kinase

Epissage alternatif

variant II

Epissage alternatif: Un gène : Plusieurs protéines

variant I

Exons constitutifs

Exons sauteur

Déduction de l’épissage alternatif par alignement de séquences d’ARNm

A B C

A B C A C

Variant ABC d’ARNm

Variant AC d’ARNm

Séquençage des variants

Alignement des séquences

Gap

Alignements multiples d’ARNmexprimés à large échelle

• Génome humain : 10aines de milliers de séquences ARNm alignées

• 75% des gènes humains : épissage alternatif

• 30 000 gènes : centaines de milliers de protéines

• Le protéome est bcp plus complexe que le génome

Plusieurs formes d’épissage alternatif

Exons sauteurs

Échange d’Exons

Utilisation de sites d’épissages alternatifs

•Inconditionnel : 2 (ou plus) variants d’ARNmproduits dans tous les tissus qui expriment le gène•Conditionnel : spécifique du tissu, du stade de dévent ou de l’état physiologique

Epissage alternatif

Caractérisation des exons constitutifs et sauteurs

(alternatifs) chez l’homme

• But : rechercher des motifs (séquences) caractéristiques des exons sauteurs

• Résultats : bcp d’exons alternatifs avec motifs très conservés

• Motif : partie d’un éléments ALU• Rôle des éléments ALU dans l’épissage

alternatif peu connu

Drosophile: Gène Dscam

Guide la croissance des axones entre neurones

4 exons = clusters d’exons alternatif

38 000 versions ≠ de la protéine (Droso. = 13 000 gènes)

115 exons

Chaque exons alternatif = mutuellement exclusif

Zone 5' et 3' de l'ARN messager

5' UTR et 3' UTR : Untranslated Transcribed Region

Des motifs cruciaux de régulation

Zones de régulation

Séquences qui contrôlent la transcription : séquences cis-régulatrices

Éléments cis-actifs : séquences sites d’accrochage d’éléments régulateurs (trans-actifs)

Éléments trans-actifs : molécules qui se lient aux séquences ADN cis-actifs

ADN

Élément (séquence) cis-actif

Reconnaissance +/- spécifique des éléments

Élément (molécule) trans-actif

ADN

Liaison cis-trans

Contrôle de la transcriptionTrois types de séquences cis-régulatrices :

contrôle de la transcription

Promoteur : séquence de nucléotides = site de reconnaissance de la machine de transcription

Enhancer (activateurs) : augmentent taux de transcription ou activent le promoteur

Silencer (inhibiteurs) : diminuent taux de transcription ou inactivent le promoteur

Structure du site promoteurSpécifie le site où démarre la transcription +

direction de transcription

ADNPromoteur Gène

ADN

PolII PolII: ARN polymérase

Complexe d’initiation de la transcription

ARNm30pb100pb200pb

GGGCGG CCAAT TATATATA boxCAAT boxGC box

Promoteur Central

Éléments proches du Promoteur Central

Gène

TATA : région d’attache de l’ARN Polase

TATA : AT de 2 à 8 pbCAAT : Séquence consensus CAAT ou CCAAT

CAAT : Site d’accroche de protéines

GC : Séquence consensus GGGCGGGC : Site d’accroche de protéines

Boite TATA Gène

Mise en place d’une plateforme

Complexe TFIID Accrochage de

la PolII

PolII

Transcription

Boite TATA Départ de transcription

Tous les gènes n’ont pas une boite TATA !

Activateurs : contrôlent le taux de transcription

Peut être à coté du gène (ex. boites CAAT ou CG)

Peut être en amont, en aval ou même dans le gène

Peut être à qqs distance du gène

Si un activateur est déplacé dans le génome, si un gène est placé près d’un activateur : transcription

du gène adjacent augmentée

Mécanisme : protéines modulaires qui se lient sur les activateurs

Complexe de protéines : enhanceosome

Complexe activateur à 2 domaines fonctionnels !

Domaine de liaison ADN (activateur)

Domaine de trans-activationInteraction protéine-protéine : Liaison avec PolII et

autres protéines du promoteur

PolIIComplexe TFIID

activateur

Boite TATA Gène

ADN

Formation d’une loupe d’ADN

Complexe activateurs : domaines de liaison ADN tri dimensionnels caractéristiques (motifs)

Plusieurs classes de motifs (non exhaustif)

Motifs très conservés au cours de l’évolution

Homodimères ou hétérodimères

HTH (helix-turn-helix) : Très nombreux facteurs de

régulation du développement

HTH → Homeobox : 180 pb= 60 a.a. séquence

homéodomaine (très conservée)

Motif en doigt de zinc : Facteurs de transcription et régulation

Zipper (glissière) à Leucine basique (bZIP)

LeuLeu

Leu

LeuLeu

Leu

Résidus leucines tous les 7 a.a.

Confrontation de 2 chaînes protéiques par ponts

hydrophobes

Facteurs de transcription : contient aussi de domaines d’interaction protéine-protéine

Lien avec ARN Pol ou d’autres facteurs de transcription

Des domaines de liaison avec d’autre coactivateurs(hormones ou petits métabolites)

La régulation de la transcription est complexe mais généralisable

Comment localiser un gène dans une séquence ?

Algorithme d'analyse de génomes : détecter des ORF (Open Reading Frame)

Cadre de lecture ouvert : une portion du génome contenant une séquence pouvant potentiellement

coder une protéine

Gène : les ORFs sont localisés entre séquences d'initiation (codon start) et de fin de transcription

(codon stop)

Identification d'un gène dans le génome

Pas de codon stop

Exon (5') initial :

Commence avec un point de départ de transcription (ATG)

Est précédé par un site promoteur (ex. TATA à ≈ 30 pb)

Terminé juste avant un signal d'épissage GT

Exon interne : pas de codons stop

débute après un AG

finit avant GT

Exon final (3') : débute après un AG

termine par un codon stop (TAA, TAG, TGA)

est suivi par une séquence avec polyA (5' UTR)

ATGCCGA……TCAGG… …CCTAGTAATTG…

Exon initial

Exon interneIntron

Promoteur

Exon final

…TAAG TTC… …AGGTGA CCTAATAAAGACC…Séquence polyaSTOP

ACTTG… …GCCC…AGTAG GTCCTA…

5' UTR

3' UTR

3 – 2 - ADN Répétitif

Définition

Séquences de nucléotides, de tailles variables, +/- identiques que l’on retrouve un certain nombre de fois dans le génome

d’un organisme

Séquence en tandem

Séquence dispersées

Motif de la Séquence

TTAGCT TTAGCT TTAGCTTTAGCT

TTAGCT

TTAGCT

TTAGCT

Plusieurs types d’ADN répétitif

• ADN répétitif de séquences fonctelles : Familles multigéniques, séquences fonctelles non codantes

• ADN répétitif de séquences sans fonctions connues : Séquences transposées, ADN non fonctel répété

3 – 2 – 1 Les familles multigéniques