annotation.ppt [Mode de compatibilité]lecompte/cours/sag_annotation1.pdf · 2011-02-14 · DNA...

1

Plan

3 A i d é3. Annotation des génomesa) Localisation des éléments génétiques

éléments répétés gènes des ARN stables (ARNr, ARNt) gènes protéiques pseudogènes régions régulatrices régions régulatrices

b) Annotation fonctionnellec) Intégration

Localisation des éléments génétiques

Nature Reviews Genetics 11, 559-571 (August 2010)

2

Les éléments répétésTélomères (plusieurs Kb) : ADN minisatellite contenant le motif (TTAGGG)n

Centromère (plusieurs Mb) : ADN satellite (~170 bp)

Microsatellites (≤ 100pb) (Short Tandem Repeat) :répétition en tandem d’un motif de 2 à 6 pb, é frépartition uniforme sur le chromosome

Séquences répétées disperséesdérivant d’éléments transposables(réparties sur tout le chromosome)

Elts répétés simples (en tandem)

Elts répétés dispersés

Eléments transposables et leurs dérivés

1) DNA transposons

Pas d’intermédiaire ARN Transposase

Eucaryotes Procaryotes (IS = Insertion sequence)

1) DNA transposons

DNA transposons

TransposaseShort terminal inverted repeats

Non autonomous

Autonomous

80 bp à 3 kb

3


2) Rétrotransposons (= rétroéléments = RNA transposons)2) Rétrotransposons (= rétroéléments = RNA transposons)

Un intermédiaire ARN reverse transcriptase

Présent chez les eucaryotes

On distingue les rétroéléments :- à LTR (Long Terminal Repeats)

LTR i à l A- sans LTR mais à polyA

Exemple L1 :


Retrovirus-like elements

LINEs (Long Interspersed Nuclear Elements)

ReversePromoter site OtherAAAAAutonomous

Retrovirus like elements

Reversetranscriptase

Other proteins

LTR : Long terminal repeats

Non autonomous

Autonomous

1.5 à 10 kb

à LTR

SINEs (Short Interspersed Nuclear Elements)

AAAAPromoter site

(pol III)

Reversetranscriptase

Promoter site(pol II)

Otherproteins

Non autonomous

6 à 8 kb

100 à 400 bp

sans LTR(avec polyA)

dérivent de tRNA, 7SL RNA (composant de la SRP, signal recognition particle) et 5S rRNA

4

Exemple : SINE3

Kapitonov & Jurka, Mol Biol Evol, 2003

5S rRNA : séquence consensus de l’ARN5S eucaryote, XL : Xenopus laevis, DR : Danio rerioSINE3 : séquence consensus de la région 5’ des éléments SINE3-1 et SINE3-2


Interspersed repeats in eukaryotic genomes

D. melanogaster C. elegans A. thaliana M. Musculus H. sapiensLINEs / SINEs 0.7 % 0.4 % 0.5 % 27,4 33.4 %

LTR 1.5 % 0 % 4.8 % 9,9 8.1 %DNA transposons 0.7 % 5.3 % 5.1 % 0,9 2.8 %

TOTAL 3.1 % 6.5 % 10.5 % 38.6 44.4 %

Interspersed repeats in eukaryotic genomes

Copy number FractionLINEs 850 000 21 %SINEs 1 500 000 13 %

Retrovirus-like elts 450 000 8 %DNA transposons 300 000 3 %

TOTAL 3 100 000 ~ 45 %

Interspersed repeats in the human genome

5

Homo sapiens, chr 1878 Mb 115 378 repeats détectés

8 kb

Eléments transposables chez les plantes

Jiang et al. Current opinion in Plant Biology. 2004

en nb de copies

MITEs = Miniature Inverted repeat Transposable Elements( DNA transposons)

6

http://www.repeatmasker.org/

>Sequence1ACGTGCGCGATCGCCTGCTAGGCGTACGTCGCAGGCGATCGATGTGCTAGATCAGATGACA

Séquence d’ADN (format Fasta)

>Sequence1ACGTGCGCGNNNNNNNNTAGGCGTACGTCGCAGGCGATCGATGTGCTAGATCAGATGACA

Séquence d’ADN filtrée

Banque d’i t d

Low complexity regionsSimple repeats

Bilan des repeats

d’interspersed repeats (Alus,...)

Certains génomes sont déjà filtrés et peuvent être téléchargés.

Plan

3 A i d é3. Annotation des génomesa) Annotation structurale : localisation des éléments génétiques

éléments répétés gènes des ARN stables (ARNr, ARNt...) gènes protéiques pseudogènes régions régulatrices régions régulatrices

b) Annotation fonctionnellec) Intégration

7

Gènes des ARN non codant

Les ARN ibosomiq es Les ARN ribosomiques : Très forte conservation =>Recherche par similarité Beaucoup de séquences banques spécialisées

http://bioinformatics.psb.ugent.be/webtools/rRNA/index.html

http://www.arb-silva.de/

Recherche des gènes d’ARNt

4

3

2

1 72

71

70

69

73 74 75 7605’ 3’

Bras accepteur4

3

2

1 72

71

70

69

73 74 75 7605’ 3’

Bras accepteur

Structure secondaire d’un

ARNt

12 11 101314

1516

18

19

20 2122

28

23 24 2526

27

42

4344

45

46

9

7

47

8

6

5

4 69

68

67

66 65 64 63 62

55

6160

56

595857

5453

48

5250 5149

e21e22

e23e24

e25e13e12

e1120B20A

17A17

Bras D

Bras T

Boucle variable

12 11 101314

1516

18

19

20 2122

28

23 24 2526

27

42

4344

45

46

9

7

47

8

6

5

4 69

68

67

66 65 64 63 62

55

6160

56

595857

5453

48

5250 5149

e21e22

e23e24

e25e13e12

e1120B20A

17A17

Bras D

Bras T

Boucle variable

Nucléotides toujours présents29

30

3132

3334 35 36

37

3839

40

41e25

e25e26

e27

e1e3e2

e4e5e17

e16e15

e14e13

intron

Bras anticocon29

30

3132

3334 35 36

37

3839

40

41e25

e25e26

e27

e1e3e2

e4e5e17

e16e15

e14e13

intron

Bras anticocon

anticodon

Nucléotides parfois présents

invariant ou semi-invariantvariable

Promoteurs intragéniques

8

Signal caractéristiquedu bras T

Possibilité de former le b ras T

Signal caractéristiquedu bras D

Non

Non

Non

Oui

Oui

Oui

5 appariements SG = SG +1

3 bases invariantes SG = SG +1


(1)

(2)

(3)

SG = 0

Signal caractéristiquedu bras T

Possibilité de former le b ras T

Signal caractéristiquedu bras D

Non

Non

Non

Oui

Oui

Oui




(1)

(2)

(3)

SG = 0Algorithme de tRNAscan

5’ 3’15 bases

+1

1) Parcours de la séquence génomique (5‘ en 3’)

Possibilité de former le b ras D

Possibilité de former le bras accepteur

SG 4

Possibilité de former le Non

Non

Non

Non

Oui

Oui

Oui

Oui3 appariements SG = SG +1



(4)

(5)

(6)

Possibilité de former le b ras D

Possibilité de former le bras accepteur

SG 4

Possibilité de former le Non

Non

Non

Non

Oui

Oui

Oui

Oui3 appariements SG = SG +1



(4)

(5)

(6)12 11 101314

15169

7

8

6

5

4

3

2

1 72

71

70

69

68

67

66 65 64 63 62 6160

56

595857

535250 5149

73 74 75 76

17A17

05’ 3’

Bras accepteur

Bras D

Bras T

12 11 101314

15169

7

8

6

5

4

3

2

1 72

71

70

69

68

67

66 65 64 63 62 6160

56

595857

535250 5149

73 74 75 76

17A17

05’ 3’

Bras accepteur

Bras D

Bras T

2) Idem pour la séquence complémentaire

bras anticodon

Intron

Base située en 5’ de l’anticodon

SG 5

Prédiction d’un gène d’ARNt Fenêtre suivante

Non

Non

Oui

Oui

Oui

Oui

Base T SG = SG +1

(6)

(7)

bras anticodon

Intron

Base située en 5’ de l’anticodon

SG 5

Prédiction d’un gène d’ARNt Fenêtre suivante

Non

Non

Oui

Oui

Oui

Oui

Base T SG = SG +1

(6)

(7)

Fichant & Burks, 1991

12 11 1013

18

19

20 2122

29

28

23 24 2526

27

30

3132

3334 35 36

37

3839

40

41

42

4344

45

4647

5556

5453

48

5250 5149

e21e22

e23e24

e25e25

e26e27

e1e3e2

e4e5e17

e16e15

e14e13

e12e1120B20A

17A

intron

Bras anticocon

Boucle var

12 11 1013

18

19

20 2122

29

28

23 24 2526

27

30

3132

3334 35 36

37

3839

40

41

42

4344

45

4647

5556

5453

48

5250 5149

e21e22

e23e24

e25e25

e26e27

e1e3e2

e4e5e17

e16e15

e14e13

e12e1120B20A

17A

intron

Bras anticocon

Boucle var

Le programme tRNAscan-SE

Combinaison de 3 méthodes :Combinaison de 3 méthodes :- tRNAscantRNAscan

algorithme de Pavesialgorithme de PavesiExcellente sensibilité (> 99%)nombreux faux positifs

TRNAscan-SE est le programme le plus utilisé pour recherche de gènes d’ARNt

- algorithme de Pavesialgorithme de Pavesirecherche de signaux de transcription

- CovelsCovels (modèles de covariance)excellente spécificité mais très lent

nombreux faux positifs

seuls les gènes détectés par les méthodes précédentes sont testés

TRNAscan SE est le programme le plus utilisé pour recherche de gènes d ARNt

Excellents résultats chez procaryotes et eucaryotes

Fournit position des éventuels introns

Prédiction de certains pseudogènes d’ARNt

9

snoRNA (small nucleolar RNA) longueur : 6o à 300 nt gènes souvent localisés dans les introns présence chez Archaea et Eucaryotes maturation des ARNr, des snRNA et des ARNt

Box C/D snoRNAs Box H/ACA snoRNAs

conversion of uridines to pseudouridine

=>methylation

m3Gppp : trimethylguanosine cap structure

p

d’après Kiss, Cell, 2002

snoscan (Lowe et al, Nature 1999)

snoGPS (Schattner et al, Nucleic Acids Res 2004)

micro ARN (miRNA)

qq dizaines à plusieurs centaines de bp

20-24 nt

pol II

d’après Novina et al, Nature 2004

10

micro ARN (miRNA)

Zhang et al, Computational biology and chemistry, 2006

Localisation des cibles des micro ARN : - complémentarité (forte chez plantes)- localisation préférentielle dans 3’UTR chez animaux

ex: TargetScan, miRanda…

Plan


éléments répétés gènes des ARN stables (ARNr, ARNt...) gènes protéiques pseudogènes régions régulatrices régions régulatrices

b) Annotation fonctionnellec) Intégrations

11

Chez les Procaryotes:les longues “Open Reading Frames” (>500 bases) ont une forte probabilité de correspondre à un véritable gène

Prédiction des gènes protéiques

Problèmes rencontrés chez les Procaryotes et les Eucaryotes

Chez les Eucaryotes:• la faible densité de codage • la taille des gènes (cf taille et nombre des introns)• le splicing alternatif

Les grandes catégories d’approches pour la détection de gènes

• Approches empiriques (pour les Procaryotes)

Génomique

• Approches empiriques (pour les Procaryotes)

• Prédictions ab initio méthodes intrinsèques

• Méthodes basées sur la similarité méthodes extrinsèques

• Méthodes qui combinent les 2 approches précédentes

Approche empirique

• longs cadres ouverts de lecture • recherche d’un codon initiateur * *

Open Reading Frame (=ORF)

startgène

APE1094

APE1097

APE1088

APE1092

APE1091

APE1090

APE1089

(2)(1)APE1087

APE1093

APE1095

APE1096

Exemple : une région annotée du génome de Aeropyrum pernix

Génomique

Annotation initiale : 2694 gènes protéiquesRé-annotation : estimation maximale de 1873 gènes (Natale et al, 2000)

p g g py pGène fortement conservéGène faiblement conservéAbsence de similarité

Gènes non prédits lors de l’annotation initiale(1) Protéine ribosomique L39e(2) Protéine conservée chez les Archées

12

Prédictions ab initio chez les Procaryotes

GLIMMER : Gene Locator and Interpolated Markov Modeler

Quelques programmes : Genemark, Glimmer, Ecoparse,...

Les étapes :

1 - définition de l’ensemble de gènes de référence (training set)

2 - construction des modèlesIMM (Interpolated Markov Models) dans GLIMMER 1.0ICM (Interpolated Context Models) dans GLIMMER 2.0

3 é l ti d é d t t ti ll f ti d dèl

Génomique

3 - évaluation des séquences codantes potentielles en fonction des modèles

4 – résolution des problèmes de chevauchements (overlaps)

1- Définition de l’ensemble de référence

• Identification de toutes les “Open Reading Frames” (ORFs)dans les 6 cadres avec une longueur > seuil (~ 90 bp par défaut)

• Sélection des ORFs qui vont constituer la banque de référence- à partir de gènes connus (expérimentalement)

5’ 3’

- à partir de gènes connus (expérimentalement)- à partir du génome longueur > 500 bp

absence de chevauchement avec une ORF > 500 bp

Obtenir un ensemble importants de gènes “fiables”

Génomique

5’ 3

13

2 - Construction du modèle (cas des IMM) Calcul des fréquences des oligomères (longueur 1 à k+1) pour les 6 cadres

avec k=ordre du modèle

Sx,i Base sx

Contexte de sx de longueur i

sxsx-1…sx-i+2sx-i+1sx-i sxsx-1…sx-i+2sx-i+1sx-i

Sx

Séquence Sx de longueur i+1

xSfSPSP )()()( F é b é

Estimation de la probabilité d’occurrence d’une base connaissant son contexte (i bases précédentes)

Génomique

acgtb

ixixxxi

bSffSsPSP

),()()()(

,, Fréquences observées

exemple : P(G|AATC)=

f(AATCG)

f(AATCA)+f(AATCC)+f(AATCG)+f(AATCT)

2 - Construction du modèle (cas des IMM)• Pondération de l’importance des différents oligomères dans le modèle

à chaque estimation de probabilité Pi(Sx) est associée une valeur i(Sx-1)

0 ≤ i(Sx 1) ≤ 1 dépend de la fréquence d’occurrence observée 0 ≤ i( x-1) ≤ p qpour l’oligomère Sx-1


Sx,i

Sx

Génomique

acgtb

ix

xixxxi

bSfSfSsPSP

),()()()(

,, Fréquences observées

14

3 - Evaluation des gènes potentiels (cas des IMM)La probabilité que le modèle M génère la séquence S est :

n

x

xSMSP1

8 )(IMM IMM8(Sx) : score de l’oligomère Sx dans le modèle de 8e ordreSx : oligomère se terminant à position xn : longueur de la séquence.

)(IMM)(1)()()(IMM 111 xkxkxkxkxk SSSPSS

ATG…………..……ATCTCAAATAC………………TAA1 nx

Gène potentiel

IMM8(Sx)= λ(TCTCAAAT) X P(TCTCAAATA) + [1-λ(TCTCAAAT)] X IMM7(Sx)Si λ(TCTCAAAT)=0.9 et λ(CTCAAAT)=1 :IMM8(Sx)= 0.9 X P(A | TCTCAAAT) + 0.1X λ(CTCAAAT)X P(A | CTCAAAT))IMM8(Sx)= 0.9 X P(A | TCTCAAAT) + 0.1X P(A | CTCAAAT)

Génomique


Sx,i

Sx

k(Sx-1) : poids associé au kmer se terminant à la position x-1 dans la séquence S

Pk(Sx) : estimation de la probabilité d’avoir la base observée à la position x dans le modèle d’ordre k.

Construction du modèle (cas des ICM)

s8s7s6 s9s5s4s3s2s1 s8s7s6 s9s5s4s3s2s1

j=7

Arbre de décision

s8as6 s9s5s4s3s2s1 s8as6 s9s5s4s3s2s1 s8ts6 s9s5s4s3s2s1 s8ts6 s9s5s4s3s2s1 s8cs6 s9s5s4s3s2s1 s8cs6 s9s5s4s3s2s1 s8gs6 s9s5s4s3s2s1 s8gs6 s9s5s4s3s2s1

s8ta s9s5s4s3s2s1 s8ta s9s5s4s3s2s1 s8tt s9s5s4s3s2s1 s8tt s9s5s4s3s2s1 s8tg s9s5s4s3s2s1 s8tg s9s5s4s3s2s1s8tc s9s5s4s3s2s1 s8tc s9s5s4s3s2s1

j=6 j=8 j=5j=6

j=8 j=4 j=8j=8

b7=a b7=t b7=c b7=g

b6=a b6=t b6=c b6=g

Génomique

Décomposition s’arrête :- quand on atteint une profondeur seuil- quand les séquences d’un sous-ensemble sont trop peu nombreuses dans le « training set »

Interpolation : combinaison linéaire entre distribution d’un nœud père et d’un nœud fils

15

4 - Résolution des problèmes de chevauchement

Recherche d’un autre

codon initiateur Cas possibles

Non

Recherche d’un autre

codon initiateur Cas possibles

Non5’ 3’A

B3’ 5’

5’ 3’AB

3’ 5’3’ 5’ 5’ 3’A

Score de A >Score de B

Exemple

gène A

gène B

gènes A et B

gène A

gène B

gènes A et B

5’

3’AB

5’ 3’5’

3’AB

5’ 3’B

5’ 3’5’ 3’A

B5’ 3’

5’ 3’AB

5’ 3’B

5’ 3’

B5’ 3’

3’ 5’AB

5’ 3’B

5’ 3’

3’ 5’A

3 53 53 55’ 3’

AB

5’ 3’

5’ 3’AB

Nouveau codon start

Génomique

Pas d’autre codon start

5’ 3’A

Longueur A >> longueur B

5’ 3’

5’ 3’AB

Overlap maintenu

Glimmer is a system for finding genes in microbial DNA, especially the genomes of bacteria and archaea. Glimmer (GeneLocator and Interpolated Markov Modeler) uses interpolated Markov models (IMMs) to identify the coding regions anddistinguish them from noncoding DNA.

Génomique

http://www.tigr.org/softlab/glimmer/glimmer.html#refs

16

Composition et surprédiction

Codons stop : TAA, TAG, TGA(riches en A et T)

Moins de codons stop dans les génomes riches en GC

Génomique

Estimation du pourcentage de sur-prédictions par rapport au nombre de gènes prédits en fonction du %GC (d’après Skovgaard et al. 2001)

Plus d’ORF longs par hasard

Sous-prédictions

N° d’accès Description Longueur(aa)

P58077 50S ribosomal protein L21e 107

P58085 50S ribosomal protein L29p 66

Gènes de petite tailleGènes de petite taille

Gènes de composition Gènes de composition P58026 50S ribosomal protein L34e 95

O29720 DNA gyrase subunit B 632

P58001 Probable exodeoxyribonuclease VIIsmall subunit

72

P58061 Probable protein export membraneprotein SECG

77

P58189 50S ribosomal protein L31e 95

P58078 30S ribosomal protein S27e 65

P58193 Probable translation factor SUIIh l

99

Gènes de composition Gènes de composition biaiséebiaisée

Gènes présentant des Gènes présentant des frameshiftsframeshifts

Génomique

Exemples de protéines codées par des gènes découverts lors de la ré-annotation de 26 génomes (d’après Bocs et al. 2002)

homolog

P58008 Hypothetical protein TM0562.1 192

P58093 Hypothetical protein VCA0360.1 80

17

Problème du codon initiateur

BACTER

Importance du contexte évolutif

MRIRLEHGAGGEL

ARCHAEA

IA

BACTER

Génomique

Hydrogenase expression/formation proteins (Nter)

ARCHAEA

IA

Ortho-protéogénomique

Couplage

Mycobacterium smegmatis

Protéogénomique

Nouvelle méthode de marquage des peptides N-terminaux

Génomique comparative

Protocole de propagation

16 génomes de MycobacteriumMycobacterium smegmatis

annotation initiale TIGR

29 protéines non prédites 19% erreurs

3 727 séquences validées

601 séquences corrigées

Taux d’erreur : 9 à 21%Moyenne : 1 gène sur 7 !

946 protéines identifiées 443 peptides N-terminaux

Gallien et al., Genome Research 2009

18

Ortho-protéogénomique

7084% 16%

20

30

40

50

60

70

ombr

e de

séq

uenc

es ATG

GTGTTG

75% des extensions > 5 aa

0

10

0

>29 27 24 21 18 15 12 9 6 3 1 4 7 10 13 16 19

Longueur de l’extension (aa) Longueur de la délétion (aa)

No

Approches complémentaires

Recherche de similarité pour les gènes potentiels valider un grand nombre de gènes

Recherche de similarité dans les régions intergéniques « récupérer » des petits gènes récupérer des petits gènes

Utilisation de la synténie (conservation de l’ordre) entre génomes proches éviter certaines erreurs

Hyp.

Pyrococcus horikoshii P. abyssi et P. furiosus

Génomique

Enolase

rpoN

tRNAEnolase

rpoN

tRNArpoK

19

Prédiction de gènes ab initio chez les Eucaryotes

Principe :

• signaux de transcription• Transcription Start Site (TSS)• TATA-box• TATA-box• signal de polyadenylation (hexamère consensus AATAAA)• transcription factor binding site, enhancer,...

• Signaux de splicing :

exon exon

intron5’ 3’

Site donneur Site accepteur

Génomique

• distribution des longueurs et des caractéristiques de composition

(C,A)AG || GT(A,G)AGT (T,C)n N(C,T)AG || G

ExonsIntronsRégions intergéniques

Prédiction de gènes ab initio chez les Eucaryotes

Quelques programmes :

GENIE HMMGENSCAN HMMHMMGENE HMMGeneMarkHMM HMMGRAIL neural networkGeneFinder Rule-based systemWise2/GenewiseGrail/ExpGenie ESTGenomeScanTwinscan...

ab initio +similarity data

Génomique

Prediction of complete Gene Structures in Human Genomic DNA.Burge and Karlin JMB 268:78-94 (1997)

Modèle général de la structure des séquences génomiques (Genscan)

20

1.0 : exons optimaux1.0 <p<0.1 : exons suboptimaux

VertebrateA. thalianaMaize

p<0.1 : explosion du nombrede prédictions

Jusqu’à 1 Mbp

Génomique

Jusqu à 1 Mbp...

11.16 PlyA - 77036 77031 6 1.0511.15 Term - 78677 78591 87 2 0 64 44 157 0.990 10.5811 14 I t 78906 78838 69 0 0 43 71 91 0 984 6 36

Gn.Ex Type S .Begin .End Len Fr Ph I/Ac Do/T CodRg P Tscr----- ---- - ------ ------ ---- -- -- ---- ---- ----- -----

Exemple de résultats fournis par Genscan

exon terminal

Site accepteur

Site donneur

Région codante

11.14 Intr - 78906 78838 69 0 0 43 71 91 0.984 6.3611.13 Intr - 79164 79117 48 0 0 73 99 11 0.926 3.6611.12 Intr - 79403 79326 78 2 0 71 90 -3 0.803 2.0311.11 Intr - 79631 79518 114 2 0 62 113 146 0.994 19.2211.10 Intr - 80252 79726 527 0 2 1 33 421 0.376 24.6311.09 Intr - 80525 80402 124 2 1 64 25 141 0.998 9.6411.08 Intr - 81092 81027 66 2 0 56 115 70 0.999 9.6811.07 Intr - 81345 81190 156 0 0 45 72 165 0.493 14.8911.06 Intr - 81501 81445 57 0 0 91 87 88 0.521 12.1611.05 Intr - 81894 81850 45 0 0 126 99 -9 0.990 6.6911.04 Intr - 82230 82111 120 0 0 67 55 54 0.508 4.7711.03 Intr - 82361 82286 76 1 1 -10 81 77 0.999 0.8011.02 Intr - 82570 82456 115 2 1 62 77 153 0.997 15.19

exon interne

Génomique

11.01 Init - 83435 83408 28 2 1 68 89 38 0.768 6.7111.00 Prom - 83883 83844 40 -12.72

12.00 Prom + 83889 83928 40 -13.5912.01 Init + 84013 84037 25 0 1 43 69 67 0.847 5.0412.02 Intr + 84210 84321 112 1 1 44 115 141 0.804 15.9212.03 Term + 84556 84637 82 1 1 46 37 48 0.725 -3.3112.04 PlyA + 84889 84894 6 1.05

exon initial

probabilité Score de l’exon

21

Programmes de prédiction ab initio

GénomiqueWang et al, Genomics, Proteomics, Bioinformatics 2004

Comparaison de programmes de prédiction

Données test : Séquence de 2.9 Mb du génome de Drosophila (région Adh)

GénomiqueGenome annotation assessment in Drosophila melanogaster Reese et al. Genome Research. 10: 483-501 (2000)

Sensibilité : proportion d’événements prédits sur l’ensemble des événements à prédire

Spécificité : proportion de prédictions correctes sur l’ensemble des prédictions Sp = VPVP+FP

Sn = VPVP+FN

22

Limites des approches intrinsèques (prédiction ab initio)

Importance de l’ensemble d’apprentissage=> amélioration si apprentissage directement sur espèce à annoter=> amélioration si grand nombre de gènes connus expérimentalement

Défauts majeurs:=> très faible spécificité=> bornes exactes mal prédites=> petits exons et introns atypiques mal prédits=> éléments régulateurs non prédits (ou très mal)

Sensibilité réduite pour les gènes à évolution rapide (Ka/Ks élevé dans comparaisons interspéciques)

Génomique

Ka : nb de substitutions non synonymesKs : nb de substitutions synonymes

Si Ka/Ks ~ 1 => évolution neutreSi Ka/Ks <1 => contraintes sélectivesSi Ka/Ks > 1 => évolution adaptative

Prédiction par approches comparatives (extrinsèques)

5’ 3’ 3’EST EST5’

• séquence génomique banque des ADNc et EST pour identifier exons et introns

• séquence génomique traduite dans les 6 cadres banque de protéines

5’ 3’

5’3’ EST

contig

q g q q p(BLASTX)

• comparaison de séquences génomiques très proches pour identifier les régions conservées (exons, signaux de transcription) => synténie

23

Windsor & Mitchell-Olds, Curr. Opinion in Biotechnology, 2006

Approche mixte

Programmes

SimilaritéGenie etGenscan Genie Genscan

Nonprédits

Total

EST et protéines 6 040 288 239 49 6 616

EST seules 1 357 143 107 34 1 641

Protéines seules 2 541 157 220 78 2 996

Prédictions ab initio

mil

arit

é

Résultats obtenus lors de l’annotation du génome de D. melanogaster

Protéines seules 2 541 157 220 78 2 996

Absence de similarité 1 980 307 - 0 2 348

Total 11 918 895 627 161 13 601

d’après Adams et al., 2000

sim

24

Evaluation of gene predictions (EGASP project)

Accuracy (compared to ENCODE)Relatedgenome

Protein and expression data

All available evidence

Picardi & Pesole, Methods Mol Biol. 2010

Ab initio Ab initio + similarity

Nombre de gènes et taille du génome

9000

4000

5000

6000

7000

8000

9000

Nom

bre

de g

ènes E. coli 1

C. acetobutylicum

S. coeli-color

M. acetivorans

Procaryotes => 1gène protéique / 1Kb

0

1000

2000

3000

0 1000 2000 3000 4000 5000 6000 7000 8000 9000

Taille du génome (Kb)

N

M. leprae

A. pernix

M. genitalium

T. acidophilum

25

60 000 predicted genes, 26 000 evidence-supported genes

Large Dna viruses

BacteriaBacteriaArchaea

Unicellular eukaryotesMulticellular eukaryotes

Koonin, 2009 The International Journal of Biochemistry & Cell Biology

Nombre de gènes et taille du génomeFraction de l’euchromatine occupée par des éléments répétés de type transposonsEucaryotes

123456789

1 H. sapiens2 A. gambiae3 D. melanogaster4 C.elegans

6 P. falciparum7 S. pombe8 S. cerevisiae9 E. cuniculi

5 A. thaliana

Fraction codanteFraction non codante

123456789

1 H. sapiens2 A. gambiae3 D. melanogaster4 C.elegans

6 P. falciparum7 S. pombe8 S. cerevisiae9 E. cuniculi

5 A. thaliana

Fraction codanteFraction non codante

0% 20% 40% 60% 80% 100%

H. sapiens

A. gambiae

A thaliana

C. elegans

D. melanogaster

E. cuniculi

Introns : de 1 à 2 par génome chez certains diplomonads à une moyenne de 5 à 8 introns par gène chez les vertébrés.

26

Complexité et nombre de gènes chez les Eucaryotes

C. elegans

A thaliana

H. sapiens

E. cuniculi

S. pombe

P. falciparum

S. cerevisiae

D. melanogaster

A. gambiae

g

Génomique

0 5000 10000 15000 20000 25000 30000 35000

Nombre de gènes estimés

En nombre de gènes : 1 homme = ~ 4 levures

Complexité et nb de gènes chez les Eucaryotes

S cerevisiae

D. melanogaster

A. gambiae

C. elegans

A thaliana

H. sapiens

0 5000 10000 15000 20000 25000 30000 35000

Nombre de gènes estimés

E. cuniculi

S. pombe

P. falciparum

S. cerevisiae

27

Complexité et nb de gènes chez les Eucaryotes

Complexité/organisation modulaire des protéines

Y=yeast, W=worm, F=fly, y , , y,V=vertebrate, H=human

The genome international sequencing consortium Nature 409:860-921 (2001)

28

Complexité : importance de l’ARN

Génération des ARNm: Génération des ARNm: Sites d’initiation de la transcription alternatifs Epissage alternatif Sites de polyadénylation alternatifs

Après génération des isoformes d’ARNm matures:é Régulation de la traduction par les miRNA

Sites alternatifs de début de traduction...

Alternative splicing

l i ’ li i l iAlternative 5’ splice-site selection

Alternative 3’ splice-site selection

Cassette-exon inclusion or skipping

Intron retention

Nilsen & Graveley, Nature, 2010

29

GénomiqueMc Guire et al, Genome Biology, 2008

Alternative splicing and diversity:the Dscam gene in Drosophila

Axon guidancereceptor

38 000 different mRNA isoforms

38 000 distinct receptors

Alternative splicng: increasing diversity in the proteomic world. Graveley. TRENDS in Genetics. 17:100-107 (2001)

receptor

30

Examples of alternative mRNA processing

Processing

mRNA isoforms

Processing

Licatalosi and Darnell, NATuRe RevIewS Genetics, 2010pA : site de polyadénylation

Plan




31

Les pseudogènes

Copie non fonctionnelle d’un gène actif dans l’ADN génomiqueDéfinition

Perte de fonction résulte de :- l’échec de la transcription (la plupart du temps)- l’échec de la traduction- la production d’une protéine non fonctionnelle (?)

Pb pour l’annotation (nombreuses erreurs dans les banques)

Problèmes posés par les pseudogènes

Génomique

ImportanceDifficile à estimer : détection exhaustive impossible

Pb pour les PCR…

Importance des pseudogènes dans les génomes complets

Génomique

Zhang et al Curr. Opinion in Genet. Dev. 2003

32

Origine des pseudogènes ?

1) Retrotransposition “processed pseudogenes”• Transcription réverse d’1 ARNm totalement ou partiellement épissé• Intégration du rétrotransposon dans le génome

Génomique

Retropseudogènes et retrotransposons

éléments répétés => fertiles (présence d’un promoteur)

élément “mort” généralement

Génomique

RT : reverse transcriptase, EN : endonuclease

généralement

Weiner, Curr Opiniion in Cell Biol, 2002

33

Exemple de rétropseudogène

PTEN/MMC1 : code pour une phosphatase de 403 aagène suppresseur de tumeur, mutation favorise apparition de cancers de la thyroïde et du sein

Pseudogène PsiPTEN (processed pseudogene)19 diffé i d l é léi l é i d t (12 t ti téi )19 différences au niveau de la séquence nucléique pour la région codante (12 mutations au nv protéique)Absence du codon d’initiationAbsence d’introns

Génomique

Exprimé dans tous les tissus testésPour certains, l’ARNm représente 70% du total !

Fujii et al. Oncogene 1999

Origine des pseudogènes ?

2) Duplication d’ADN génomique (non processed pseudogenes)• Duplication d’un gène fonctionnel• Dégradation progressive du gène (relâchement de la pression de sélection)

délétions, réarrangements• Le gène devient non fonctionnel

Génomique

34

Exemple de pseudogèneGlutathione S-transferase Alpha 1 (GSTA1)

le gène

le pseudogène

Génomique

le pseudogèneissu d’une duplication

Alignement du transcrit de GSTA1 et du « transcrit » du pseudogène

5’ UTR

3’ UTR

35

Les pseudogènes

10% des gènes humains auraient au moins 1 pseudogène

Répartition des pseudogènes chez la souris en fonction de la classification GO

Génomique

Zhang et al. Trends in Genetics 2004

Détection des pseudogènes ?

• Absence d’introns (ou nombre très limité)

P t d t• Perte du promoteur

• Présence d’éléments répétés aux 2 extrémités (flanking direct repeats)

• Accumulation de frameshifts, de codons stop

• Accumulation de mutations : ratio (mutations non synonymes/ mutations synonymes) augmente

Génomique

ratio (mutations non synonymes/ mutations synonymes) augmente

36

Plan




Recherche des éléments régulateurs

Problèmes• Séquences courtes• Situées à des distances variables Situées à des distances variables

du gène régulé

TRANSFAChttp:///www.gene-regulation.com

Banque consacrée à la régulation de la transcription chez les eucaryotes :

Site de fixation de Gal4 chez la levure

Génomique

- facteurs de transcription- les gènes cibles- les sites de fixation des facteurs

37

Recherche des éléments régulateurs

Génomique

http://www.gene-regulation.com

Recherche des éléments régulateursPhylogenetic footprinting• Positionnement des gènes orthologues entre organismes assez proches• Alignement des séquences intergéniques correspondantes• Recherche des régions de plus forte conservation

sites fonctionnels conservés

Région intergénique de S cerevisiae

sites fonctionnels conservés

GénomiqueHarbinson et al. Nature 2004

de S. cerevisiae

38

Phylogenetic footprinting

CDS

hommehomme

souris

seuil

Génomique

http://www.phylofoo.org/consite

Sandlin et al., Nucleic acids research 2004

Phylogenetic footprinting

GénomiqueVenkatesh & Yap, Bioessays 2005

39

Phylogenetic footprinting/shadowing

Recherche d’éléments communs à un grand groupe► Phylogenetic footprinting

Ex pour les mammifères : comparaison homme/souris (séparation : 75 millions d’années)

Recherche d’éléments plus récents► Phylogenetic shadowing

Ex : trait apparu chez les primates

Pb: forte conservation distinction impossible entre conservation

Génomique

distinction impossible entre conservation fonctionnelle et conservation passive

augmenter la divergence en multipliant le nombre d’espèces

Phylogenetic shadowing

Génomique

40


Test sur les bornes

exon/intron

faible contrainte

Contrainte sur la mutabilité de chaque site calculée à partir

de séquences de primates

forte contrainte

Génomique

% conservation entre les séquences homme et souris

Région génomique contenant l’exon 19 du gène apo-B

Boffelli et al, Science 2003


Test sur les bornes

exon/intron

faible contrainte

Contrainte sur la mutabilité de chaque site calculée à partir

de séquences de primates

forte contrainte

Génomique

% conservation entre les séquences homme et souris

Région génomique contenant l’exon 8 du gène CETP


41


TATA box Site de fixation d’un facteur de transcription

Recherche d’éléments régulateurs

p

Génomique

Séquence génomique contenant l’exon 1 de apo(a) et la région en 5’.



% e

xpre

ssio

n

GénomiqueBoffelli et al, Science 2003

42

Conservation des éléments régulateurs

conservation d’un enhancer localisé dans un intron de DACH

Génomique

annotation.ppt [Mode de compatibilité]lecompte/cours/sag_annotation1.pdf · 2011-02-14 · DNA...

Documents

Transcript of annotation.ppt [Mode de compatibilité]lecompte/cours/sag_annotation1.pdf · 2011-02-14 · DNA...