Introduction à la génomique fonctionnelle

Post on 13-Jan-2022

4 views 0 download

Transcript of Introduction à la génomique fonctionnelle

1

Introduction à la génomique fonctionnelle

http://www.unil.ch/dbmv/page26947_en.html

Cours aux étudiants de BSc Biologie 3ème annéePhilippe Reymond, MER

PLAN DU COURS

- Séquençage des génomes

- Méthodes globales d'analyse du génome

- Analyse des données, applications

2

Analyse globale du génome dʼun organisme

Tous les gènes et régions intergéniques

1. Génomique structurelle

- Organisation et position des gènes, taille du génome- Séquençage de lʼADN et analyse des séquences

2. Génomique fonctionnelle

Analyse du génome pour comprendre la fonction des gènes- Comparaisons de génomes entre organismes- Expression du génome- Variabilité du génome

Génomique

3

AngiospermesOiseauxMammifèresReptilesAmphibiensPoissons osseuxPoissons cartilagineuxEchinodermesCrustacésInsectesMollusquesVersMoisissuresAlguesChampignonsBactéries gram-positivesBactéries gram-négativesMycoplasmes

100 101 102 103 104 105

Millions de bases

Taille des génomes

4

Historique du séquençage de génomes

5

Séquençage du génome(méthode "shotgun")

…TAGCCCGTTGAATTCGGAATT CGGAATTGGCGGTAACCCGTGCCGAATTT TGCCGAATTTCTAGGCCGGCCT...

6Craig Venter (Celera Inc.)

Francis Collins, Human Genome Project

Séquençage du génome humain

7

Human Genome Project Celera

QUI SÉQUENCER?

Plusieurs donneurs anonymes 5 donneurs anonymes(5-10) hommes et femmes 2 hommes, 3 femmes

COMMENT ?

"BAC to BAC" "Whole genome shotgun"

20 groupes 65 techniciensgels et capillaires 250 ABI Prism 3700 Analyzer (96 capillaires)

max 200'000 réactions/24h 175'000 réactions/24h

max 1000 b/sec 1100 b/sec

23.1 Mia bases séq. (7.5 génomes) 14.8 Mia bases séquencées (5.1 génomes)

10 ordinateurs (4 processeurs, 4 Gb RAM)1 ordinateur (16 processeurs, 64 Gb RAM)Calcul 20'000 heures

4 années 9 mois

Séquençage du génome humain

8

Séquençage du génome de James WatsonNature (2008) 452: 872-877Méthode 454 (2 mois) < 1 mio $

3.3 mio SNPs11'000 SNPs changent la séquence d'une protéine

Séquençage du génome de Craig VenterPLOS Biology (2007) 5: e254Methode Sanger (9 mois)

44% des gènes présentent des variations de séquence4107 protéines sont modifiées

Différence dans 7648 protéines

Séquençage personnalisé

En cours: 1000 genomes humains 1001 genomes d'Arabidopsiswww.1000genomes.org http://1001genomes.org

9

Séquençage 454 (Roche)(http://www.454.com/)

Nouvelles méthodes de séquençage à haut débit

Pyrophosphate + 5'-Adenylsulfate (APS)

ATP + sulfate

Luciferase + luciferin

Lumière + oxyluciferin

Camera CCD

Sulfurylase

Exemple:Séquençage d'ADN de NeanderthalScience (2006) 314: 1113-1118Nature (2006) 444: 330-336

PyroséquençagePCR

CCD camera

Séquençage de environ 400 nt/fragment d'ADN

10

Illumina Genome Analyzer

11

Le séquenceur Illumina du CIG

24 mio fragments d'ADN / ligneSéquençage de environ de 75 nt/fragment

--> 1 ligne = 1.8 mia bp

12

Annotation du génome

TGACGCAATGAACGATGGCTAGGCTTAGCTTTTGGCCAGCATTACCCGGTACCTGTTACTGCGATTGGCTAACCAGGCCGGATTTCCAAGGTTCGCCAGGGGCTAATTGACACCACCACCTTACCTGGTATTCCCTAATGGTAAGCGCGATGCTA....

algorithmes de prédiction

Comment améliorer les prédictions?- génomique comparative- analyse de cDNAs complets- entraînement des algorithmes sur des gènes connus- vérification expérimentale

A64 G73 G100 T100 A62 G84 T63 ………6 Py74-87 N C65 A100 G100 NN% = fréquence du nucléotide N à cette position

Epissage

13

050

100150200250300350

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19Position sur le chromosome 2 (Mb)

Nom

bre

de g

ènes

TIGR-AGIEuGène

centromere

EuGène

TIGR-AGIgène A

gène A

Start Stop

Start StopStartStop

gène B

--> Les algorithmes d'annotation font des prédictionsqu'il faut vérifier par le séquençage de cDNAs

Prédictions de gènes chez Arabidopsis

14

"ADN poubelle?"

Des régions non transcrites du génome sont extrêmement bien conservées entre organismesdepuis des millions d'années. Leur fonction est toujours inconnue.

15

Organisme Nb de gènes prédits % gènes connus

M. genitalium 470 69%H. influenza 1ʼ709 58%E. coli 4ʼ288 62%S. cerevisiae 6ʼ034 63%T. pseudonanna 11'242 50%D. melanogaster 13ʼ601 46%C. elegans 18ʼ424 42%A. thaliana 27'029 69%M. musculus 24'502 50%P. troglodytes 20'947 50%H. sapiens 22'763 50%

Nombre de gènes chez les organismes modèles

Quelle est la taille minimum du génome pour quʼune cellule fonctionne?

Mutations systématiques par transposons du génome de Mycoplasma genitalium:265-350 gènes sont essentiels pour une croissance en laboratoire (100 nʼont pas de fonction connue!)

Hutchinson et al. (1999) Science 286: 2165-2169

Tous les gènes d'un organisme sont-ils nécessaires?

Une délétion de chaque gène de levure ne présente pas de phénotype dans 80% des cas en milieu richemais 97% des gènes sont nécessaires en condition de stress, de traitement chimique ou d'environnement modifié.

Hillenmeyer et al. (2008) Science 320: 362-365

16

Organismes modèlesEscherichia coli Blattner et al. (1997) Science 277: 1453-1462

Saccharomyces cerevisiae Goffeau et al. (1996) Science 274: 546-567

Caenorhabditis elegans The C. elegans consortium (1998) Science 282: 2012-2046

Drosophila melanogaster Adams et al. (2000) Science 287: 2185-2195

Arabidopsis thaliana The Arabidopsis genome initiative (2000) Nature 408: 796-815

Homo sapiens International Human Genome Sequencing Consortium (2001) Nature 409: 860-921Venter et al. (2001) Science 291: 1304-1351

Mus musculus Mouse Genome Sequencing Consortium (2002) Nature 420: 520-562

Takifugu rubripes Aparicio et al. (2002) Science 297: 1301-1310

Rattus norvegicus Rat Genome Sequencing project Consortium (2004) Nature 428: 493-521

Gallus gallus International Chicken genome Sequencing Consortium (2004) Nature 432: 695-716

Pan troglodytes (chimpanze) The Chimpanzee Sequencing and Analysis consortium (2005) Nature 437:69-87

Apis mellifera The Honeybee genome Sequencing consortium (2006) Nature 443:931-949

Autreshttp://www.genomenewsnetwork.org/resources/sequenced_genomes/genome_guide_p1.shtmlhttp://www.ncbi.nlm.nih.gov/Genomes/index.htmlhttp://hgsc.bcm.tmc.edu/projects/http://www.sanger.ac.uk/Projects/

Séquençage des génomes (références)

17

AAAAAA

AAAAAATTTTTT

AAAAAATTTTTT

AAAAAATTTTTT

primerreversetranscription

RNase H

AAAAAADNA pol 1

TTTTTT

ligationtransformation

Plasmide

séquençage partiel

5' 3'

TGACGCAATGAACGGCTAGGCTTAGCTTTTGGCCAGCATTACCCGGTACCTGTTACTGCGATTGGCTAACCAGGCCGGATTTCCAAGGTTCGCCAGGTTGACACCACCACCTTACCTGGTATTCCC....

vecteur cDNA

EST (Expressed Sequence Tag)

Gène

<

Vecteur

18http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html

EST (Expressed Sequence Tag)

19

Comparaisons de génomes(homme-mouche-ver-levure-plante-algue)

La plus grande différence entre lʼêtre humain et le ver our la mouche résidedans la complexité des protéines : il y a plus de domaines par protéine et beaucoupplus de combinaisons de domaines.

Nouvelles familles de protéines ou expansion de familles chez lʼêtre humain:

-réponse immunitaire-développement, structure et fonction du système nerveux-signalisation intra- et intercellulaire dans le développement et lʼhomeostasie-système sanguin-apoptose

Les fonctions cellulaires élémentaires – métabolisme de base, réplication, transcription de lʼADN, traduction- sont présentes partout, sont apparues une fois dans lʼévolution et sont restéesfixées depuis.

Seulement 94 familles de protéines (sur 1278)sont uniques aux vertébrés.

20

Duplications du génome d'Arabidopsis

Nature (2001), 408: 796-815

3 duplications: 221 Mio années 162 Mio années 75 Mio années

(calcul: 6.1 mutations synonymes/Mia années/site)

Chr1

Chr2

Chr3

Chr4

Chr5

21

Comment déterminer la fonction d'un gène

- Analyse de la séquence, comparaison avec des gènes similaires (motifs conservés, homologues dans d'autres espèces, etc…)

- Localisation dans la cellule, tissu, organisme

- Intéractions avec d'autres produits de gènes

- Mutants, surexpression, knock-outs

- Analyse de l'expression

- Corrélation entre génotype et phénotype

22

-

+

Analyse de l'expression d'un gène par Northern blot

1 2 3 4 5

Gel d'agarose Membrane de nylon

Echantillons d'ARN sonde ADN marquée

Transfert

23

Mesure globale de lʼexpression génétiqueRecherche fondamentale et appliquée dans tous les domainesDiagnostic médical, nouveaux médicaments

Applications

Analyse dʼamplifications et de délétions de gènesCaractéristique de certains cancers

Analyses des variabilités génomiques et corrélations avec des phénotypesSingle Nucleotide Polymorphisms (SNP), mutations,séquences répétées

Etc…

Les puces à ADN(DNA microarrays, DNA chips)

M. Schena, D. Shalon, R. Davis, P. Brown (1995) Quantitative monitoring of gene expression patterns with a complementary DNA microarray.Science 270: 467-470

Lipshutz, R. J.; Morris, D.; Chee, M.; Hubbell, E.; Kozal, M. J.; Shah, N.; Shen, N.; Yang, R.; Fodor, S. P. (1995) Using oligonucleotide probe arraysto access genetic diversity. BioTechniques 19(3), 442-7

24

A B CADN

ARN

Protéine

Métabolite METABOLOMIQUE

PROTEOMIQUE

GENOMIQUE

Révolution « -omique »

Puces à ADN(DNA microarrays)

(DNA chips)

25

PCR

purification

stockage -20°C

oligonucléotide synthétisé(50-70bp)

cDNA dans E.coli

culturepréparation de plasmide

ADN génomique

Préparation d'ADN pour microarrays

26

Impression de microarrays

Lames de microscope modifiées chimiquement

ADNen solution

27

Robot d'impression

28

DNA microarray

29

Echantillon contrôle

Transcription inverse

Scan de fluorescencecanal Cy3 + canal Cy5

Echantillon test

Cy5-dCTPCy3-dCTP

Hybridation 12-16 hr (64°C)

microarray

analyse d'image

Marquage et hybridation

Extraction d'ARN

lavages

cDNA simple brin marqué

image recomposée

30

Cy3-dCTP

dCTP

Cy5-dCTP

dCTP

Nucléotides fluorescents

31

AAAAAAAAAAATTTTTTT(18-21)

mRNA

Eucaryotes

TTTTTTT(18-21)AAAAAAAAAAA

Transcriptase inverseCy3-dCTP (ou Cy5-dCTP)

C C

OligodT

RNAou

RNA

Procaryotes Transcriptase inverseCy3-dCTP (ou Cy5-dCTP)

C C

hexamers

Préparation de cDNA

32

Hybridation

Gène xmicroarrayGène y

Gène z

33

Scanner de fluorescence

34

image recomposée

35

Analyse d'image

Spot Cy3 Cy5 RapportA 1 3500 4305 1.2

A 2 28000 32000 1.1A 3 1500 14800 9.9*A 4 18089 21456 1.2A 5 43789 44005 1.0A 6 679 890 1.3

A 7 3560 18900 5.3*

1 2 3 4 5 6 7 8 9 10

ABCDEFGHIJ

36

Microarray d'Arabidopsis contenant 12'000 gènes

37

65000

Signal Cy3

Sign

al C

y5

0 65000

0

Normalisation des signaux

Itérations mathématiques pour que la médiane des rapports Cy3/Cy5 soient de 1.0

38

Inte

nsité

du

signa

l

A B CGènes

Cy3Cy5

Mesure du rapport dʼexpression

R = signal Cy5*F / signal Cy3

F=facteur de normalisation

39

Fabrication de puces à oligonucléotides (10-70 nt)

Synthèse chimique sur une surface de verre par photolithogravure

Chips Affymetrix et Chips NimbleGen

GCG

ACGT

GT

GGT

40

Affymetrix GenechipsFabrication par photolithogravure

41

GeneChip ®

1.28 cm

Sondes≈ 500 000 zones de synthèse

106 to 107 oligonucleotides (25 mer) identiques dans chaque zone

ATCG

Wafer

12.7cm

Affymetrix Genechips

42

Affymetrix chipsMarquage de transcripts

FAvidin-Fluorescein

ARN

Transcriptioninverse

In vitrotranscription

cRNA-biotin

Fragmentation

Affymetrix chip

Hybridization

LavageMarquage

ScanAnalyse

A

43

Affymetrix chipsAnalyse du signal

Applications:-mesure d'expression des gènes-reséquençage-analyse de SNP

Image de fluorescence

Sondes oligonucléotides

Perfect match oligos

Mismatch oligos

Séquence de référence

44

Séquence …GATAACCGTAACGAATGCCATATCGGCTGGAAATT… ||||||||||||||||||||||||oligos ggcattgcttacggtatagccgac ggcattgcttaaggtatagccgac ggcattgcttagggtatagccgac ggcattgcttatggtatagccgac

Affymetrix chipsAnalyse de SNPs ou reséquençage

SNP

ACGT

1 2 3 4 5 6 7 8 9 10

oligos

SNPs1112 1314 1516 17

ex: Genome-Wide Human SNP 5.0 chips : 500'000 SNPs

Pour le marquage d'ADN génomique: fragmentation par enzymes de restrictions, ligation d'adapteurs, amplification par PCR, ajout de nucléotide biotinylé par terminal transferase

45

Etude sur 14'000 patientset 3'000 contrôles

Affymetrix Human 500K SNPs

Wellcome Trust Case Control Consortium, Nature (2007) 447:661-678

Association entre génotype et phénotype

46

Annotation expérimentale du génome(tiling arrays)

Schoemaker et al. (2002) Nature 409: 922-927

47Stolc et al. (2005) PNAS 102, 4453-4458

Nimblegen "tiling array"

Annotation expérimentale du génome d'Arabidopsis5 millions d'oligos 36-mer couvrant les deux brins (13 arrays)

>60% des transcripts annotés sont détectés

>1000 nouveaux gènes (en plus de Yamada et al.)12'090 transcripts en antisense

Affymetrix

Nimblegen

48

NimbleGen oligonucleotide chip

Méthode et utilisation identique à Affymetrix mais meilleur marché

49

Affymetrix: normalisation des signaux

Intensité du signal

50

Analyse des données Affymetrix d'expression

Chips 1Chips 2

Inte

nsité

du

signa

l nor

mal

isé

Gènes

Rapport d'expression :Signal Chips2/ Signal Chips1

51

Intensité du signal

Rapp

ort d

'exp

ress

ion

(Log

2 Cy5

/Cy3

)(moyenne de 6 réplicats indépendants)

CTL vs CTLPas de traitement

> 2 fois

> -2 fois

Comment identifier un gène différentiellement exprimé?

52

Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana(moyenne de 5 réplicats indépendants)

Intensité du signal

Rapp

ort d

'exp

ress

ion(

log2

Cy5

/Cy3

)

CTL vs insecte

Comment identifier un gène différentiellement exprimé?

Pieris rapae

53

Effet de Pieris rapae sur l'expression génétique chez Arabidopsis thaliana

Répression > 2 fois Induction > 2 fois

Analyse statistique du changement d'expression

P<0.05

Comment identifier un gène induit ou réprimé?

1. Seuil arbitraire (signal 2 fois plus grand dans la condition 1 que dans la condition 2)

2. Analyse statistique sur plusieurs réplicats (>3): test student t H0 µi=0Si µi différent de 0, le gène est induit avec P<0.05

Rapport d'expression

54

Corrections pour tests multiples

Errreur de Type I: un gène est déclaré différentiellement exprimé alors quece n'est pas le cas

-correction de Bonferroni: valeur p divisée par le nombre de tests -> tropconservateur-FDR (false discovery rate): proportion de faux positifs parmi les gènesdifférentiellement exprimés

-Correction Benjamini Hochberg-q value Storey Tibshirani

Cui and Churchil (2003) Genome Biology 4:210

55

Test t µ1= µ2 et rapport > ou < 1

Comparaison de deux expériences

Gènes induits par l'insecte dans le type sauvage (WT) et dans le mutant (coi1-1)Gènes induits par l'insecte seulement dans le type sauvage

Gènes pas induitsGènes induits par l'insecte seulement dans le mutant

Rapport 1: WT + insecte/ WT contrôle

Rapport 2: coi1-1 + insecte / coi1-1 contrôle

Plantes d'Arabidopsis attaquées pardes chenilles de Pieris rapae

56

Gènes

Expériences

Rapport d'expression

Comparaison de plusieurs expériencesHierarchical clustering

57

Comportement d'un groupe de répresseurs d'Arabidopsis

http://www.genevestigator.com

58

Cancer du sein

Tumeurs impossibles à différencierpar analyses classiques

patients

gènes

59Van't Veer et al. (2002) Nature 415:530-535

Le microarray comme outil diagnostique

60

Analyse de correspondance

Toutes les mesures d'expression (tous les gènes) d'une expérience sontcomparées à celles d'autres expériences

61

Analyse de promoteurs

62

Nouvel élément contrôlant l'induction par la blessure chez Arabidopsis

Walley et al. (2007) PLOS Genetics 10:e172

Analyse de promoteurs: un exemple

Motif RSRE (Rapid Stress Response Element) trouvé dans le promoteur de gènes induits rapidement par la blessureCGGGTT

63

ChIP-chipQuels sont les gènes contrôlés par un facteur de transcription

GENE X

FixationSonication

Récupération et marquaged'ADN lié au facteur de transcription

Immunoprécipitation

Cy5Cy3

Contrôle:ADN génomique marqué

Microarray contenantdes régions intergéniques

Facteur de transcription

Glucose --> Galactose

Ren et al. (2000) Science 290:2306

promoteur

anticorps

et tous les autres gènes cibles

64

GENE Y

FixationSonication

ImmunoprécipitationElimination du facteur de transcription

Facteur de transcriptionpromoteur

ChIP-seqQuels sont les gènes contrôlés par un facteur de transcription

anticorps

Séquençage à haut débit (454, Illumina)

GENE X

promoteur

GENE Z

promoteur

GENE X

65

Evolution expérimentale(250 générations)

Levures dans un milieu pauvreen glucose

Analyse globale de l'expression génétique(tous les gènes: 6124)

Résultats3% de changement d'expression

Utilisation optimale du glucosepour la production d'ATP-diminution de la fermentation-augmentation de la respirationn

DiscussionL'identité des mutations n'est pasconnue et ne peut être mesurée:on mesure le résultat et pas la cause

Analyse de changements d'expression au cours de l'évolution

Ferea et al. (1999) PNAS 96:9721-9726

66

L'avenir

-séquençage à haut débit sans amplification d'ADN ni marquage

-séquençage et assemblage de génomes inconnus grace à des séquences plus longues

-analyses d'expression des génomes par séquençage à haut débit

-beaucoup plus de génomique pour les organismes non-modèles

67

Résumé

ADN

ARN codants

ARN non codants

SNP

AAA AAA

Facteur de transcription

(Re)séquençage:- shotgun (Sanger) Génome inconnu- Illumina/454 Génome connu

Analyse des variations- Affymetrix

Recherche de promoteurs:- microarrays- séquençage Illumina/454

Analyse de l'expression- Affymetrix- microarrays

Annotation du transcriptome- Affymetrix tiling array

Identification de mutations- séquençage Illumina/454

Analyse de l'expression- séquençage Illumina/454

68

Session de printemps 2006

A. Vous avez à disposition 12 puces Affymetrix qui contiennent chacune des sondes pour tous les

gènes humains. Décrivez le design expérimental qui vous permette d’identifier avec une certaine

fiabilité statistique tous les gènes qui sont induits dans les premiers stades d’un type de tumeur de la

peau causé par un fort rayonnement UV.

B. Quel outil diagnostique développez-vous par la suite pour analyser une population de personnes

à risque?

Session de mars 2007

Les racines de luzerne (Medicago truncatula) forment des nodules avec les bactéries du genre

Rhizobium, dont le génome est complètement séquencé. Pour Medicago, il y a une collection de

cDNAs disponible.

A. Décrivez les expériences qui permettent d'identifier quels sont les gènes qui sont exprimés lors de

la symbiose, tant chez la luzerne que chez Rhizobium.

B. Comment savoir si des gènes de défenses de la plante sont réprimés lors de la symbiose?

Session de janvier 2008

Vous découvrez un nouvel ecotype d'Arabidopsis thaliana qui est très résistant aux chenilles de la

piéride du chou.

A. Quelle méthode est appropriée pour séquencer rapidement le génome de ce nouvel écotype?

Comment procède-t-on?

B. Décrivez une expérience pour savoir si la résistance aux insectes de cet écotype est due à une

plus grande expression de gènes de défense?

Session de janvier 2009

Vous obtenez la séquence du génome de 10 souris récoltées en Suisse qui manifestent des signes

d'obésité. Après analyse bioinformatique, vous découvrez 2 millions de mutations ponctuelles dans

ces génomes. Certains SNPs modifient la séquence de 1500 protéines.

A. Quelle méthode vous permet de savoir si il y a une association entre l'obésité et les 2 mio de

SNPs chez les souris d'Europe?

B. Décrivez une expérience pour savoir l'expression des gènes codant pour les 1500 protéines

modifiées est corrélée à la prise de poids des souris.

Questions d'examen