annotation.ppt [Mode de compatibilité]lecompte/cours/sag_annotation1.pdf · 2011-02-14 · DNA...
Transcript of annotation.ppt [Mode de compatibilité]lecompte/cours/sag_annotation1.pdf · 2011-02-14 · DNA...
1
Plan
3 A i d é3. Annotation des génomesa) Localisation des éléments génétiques
éléments répétés gènes des ARN stables (ARNr, ARNt) gènes protéiques pseudogènes régions régulatrices régions régulatrices
b) Annotation fonctionnellec) Intégration
Localisation des éléments génétiques
Nature Reviews Genetics 11, 559-571 (August 2010)
2
Les éléments répétésTélomères (plusieurs Kb) : ADN minisatellite contenant le motif (TTAGGG)n
Centromère (plusieurs Mb) : ADN satellite (~170 bp)
Microsatellites (≤ 100pb) (Short Tandem Repeat) :répétition en tandem d’un motif de 2 à 6 pb, é frépartition uniforme sur le chromosome
Séquences répétées disperséesdérivant d’éléments transposables(réparties sur tout le chromosome)
Elts répétés simples (en tandem)
Elts répétés dispersés
Eléments transposables et leurs dérivés
1) DNA transposons
Pas d’intermédiaire ARN Transposase
Eucaryotes Procaryotes (IS = Insertion sequence)
1) DNA transposons
DNA transposons
TransposaseShort terminal inverted repeats
Non autonomous
Autonomous
80 bp à 3 kb
3
Eléments transposables et leurs dérivés
2) Rétrotransposons (= rétroéléments = RNA transposons)2) Rétrotransposons (= rétroéléments = RNA transposons)
Un intermédiaire ARN reverse transcriptase
Présent chez les eucaryotes
On distingue les rétroéléments :- à LTR (Long Terminal Repeats)
LTR i à l A- sans LTR mais à polyA
Exemple L1 :
Eléments transposables et leurs dérivés
Retrovirus-like elements
LINEs (Long Interspersed Nuclear Elements)
ReversePromoter site OtherAAAAAutonomous
Retrovirus like elements
Reversetranscriptase
Other proteins
LTR : Long terminal repeats
Non autonomous
Autonomous
1.5 à 10 kb
à LTR
SINEs (Short Interspersed Nuclear Elements)
AAAAPromoter site
(pol III)
Reversetranscriptase
Promoter site(pol II)
Otherproteins
Non autonomous
6 à 8 kb
100 à 400 bp
sans LTR(avec polyA)
dérivent de tRNA, 7SL RNA (composant de la SRP, signal recognition particle) et 5S rRNA
4
Exemple : SINE3
Kapitonov & Jurka, Mol Biol Evol, 2003
5S rRNA : séquence consensus de l’ARN5S eucaryote, XL : Xenopus laevis, DR : Danio rerioSINE3 : séquence consensus de la région 5’ des éléments SINE3-1 et SINE3-2
Eléments transposables et leurs dérivés
Interspersed repeats in eukaryotic genomes
D. melanogaster C. elegans A. thaliana M. Musculus H. sapiensLINEs / SINEs 0.7 % 0.4 % 0.5 % 27,4 33.4 %
LTR 1.5 % 0 % 4.8 % 9,9 8.1 %DNA transposons 0.7 % 5.3 % 5.1 % 0,9 2.8 %
TOTAL 3.1 % 6.5 % 10.5 % 38.6 44.4 %
Interspersed repeats in eukaryotic genomes
Copy number FractionLINEs 850 000 21 %SINEs 1 500 000 13 %
Retrovirus-like elts 450 000 8 %DNA transposons 300 000 3 %
TOTAL 3 100 000 ~ 45 %
Interspersed repeats in the human genome
5
Homo sapiens, chr 1878 Mb 115 378 repeats détectés
8 kb
Eléments transposables chez les plantes
Jiang et al. Current opinion in Plant Biology. 2004
en nb de copies
MITEs = Miniature Inverted repeat Transposable Elements( DNA transposons)
6
http://www.repeatmasker.org/
>Sequence1ACGTGCGCGATCGCCTGCTAGGCGTACGTCGCAGGCGATCGATGTGCTAGATCAGATGACA
Séquence d’ADN (format Fasta)
>Sequence1ACGTGCGCGNNNNNNNNTAGGCGTACGTCGCAGGCGATCGATGTGCTAGATCAGATGACA
Séquence d’ADN filtrée
Banque d’i t d
Low complexity regionsSimple repeats
Bilan des repeats
d’interspersed repeats (Alus,...)
Certains génomes sont déjà filtrés et peuvent être téléchargés.
Plan
3 A i d é3. Annotation des génomesa) Annotation structurale : localisation des éléments génétiques
éléments répétés gènes des ARN stables (ARNr, ARNt...) gènes protéiques pseudogènes régions régulatrices régions régulatrices
b) Annotation fonctionnellec) Intégration
7
Gènes des ARN non codant
Les ARN ibosomiq es Les ARN ribosomiques : Très forte conservation =>Recherche par similarité Beaucoup de séquences banques spécialisées
http://bioinformatics.psb.ugent.be/webtools/rRNA/index.html
http://www.arb-silva.de/
Recherche des gènes d’ARNt
4
3
2
1 72
71
70
69
73 74 75 7605’ 3’
Bras accepteur4
3
2
1 72
71
70
69
73 74 75 7605’ 3’
Bras accepteur
Structure secondaire d’un
ARNt
12 11 101314
1516
18
19
20 2122
28
23 24 2526
27
42
4344
45
46
9
7
47
8
6
5
4 69
68
67
66 65 64 63 62
55
6160
56
595857
5453
48
5250 5149
e21e22
e23e24
e25e13e12
e1120B20A
17A17
Bras D
Bras T
Boucle variable
12 11 101314
1516
18
19
20 2122
28
23 24 2526
27
42
4344
45
46
9
7
47
8
6
5
4 69
68
67
66 65 64 63 62
55
6160
56
595857
5453
48
5250 5149
e21e22
e23e24
e25e13e12
e1120B20A
17A17
Bras D
Bras T
Boucle variable
Nucléotides toujours présents29
30
3132
3334 35 36
37
3839
40
41e25
e25e26
e27
e1e3e2
e4e5e17
e16e15
e14e13
intron
Bras anticocon29
30
3132
3334 35 36
37
3839
40
41e25
e25e26
e27
e1e3e2
e4e5e17
e16e15
e14e13
intron
Bras anticocon
anticodon
Nucléotides parfois présents
invariant ou semi-invariantvariable
Promoteurs intragéniques
8
Signal caractéristiquedu bras T
Possibilité de former le b ras T
Signal caractéristiquedu bras D
Non
Non
Non
Oui
Oui
Oui
5 appariements SG = SG +1
3 bases invariantes SG = SG +1
3 bases invariantes SG = SG +1
(1)
(2)
(3)
SG = 0
Signal caractéristiquedu bras T
Possibilité de former le b ras T
Signal caractéristiquedu bras D
Non
Non
Non
Oui
Oui
Oui
5 appariements SG = SG +1
3 bases invariantes SG = SG +1
3 bases invariantes SG = SG +1
(1)
(2)
(3)
SG = 0Algorithme de tRNAscan
5’ 3’15 bases
+1
1) Parcours de la séquence génomique (5‘ en 3’)
Possibilité de former le b ras D
Possibilité de former le bras accepteur
SG 4
Possibilité de former le Non
Non
Non
Non
Oui
Oui
Oui
Oui3 appariements SG = SG +1
7 appariements SG = SG +1
3 bases invariantes SG = SG +1
(4)
(5)
(6)
Possibilité de former le b ras D
Possibilité de former le bras accepteur
SG 4
Possibilité de former le Non
Non
Non
Non
Oui
Oui
Oui
Oui3 appariements SG = SG +1
7 appariements SG = SG +1
3 bases invariantes SG = SG +1
(4)
(5)
(6)12 11 101314
15169
7
8
6
5
4
3
2
1 72
71
70
69
68
67
66 65 64 63 62 6160
56
595857
535250 5149
73 74 75 76
17A17
05’ 3’
Bras accepteur
Bras D
Bras T
12 11 101314
15169
7
8
6
5
4
3
2
1 72
71
70
69
68
67
66 65 64 63 62 6160
56
595857
535250 5149
73 74 75 76
17A17
05’ 3’
Bras accepteur
Bras D
Bras T
2) Idem pour la séquence complémentaire
bras anticodon
Intron
Base située en 5’ de l’anticodon
SG 5
Prédiction d’un gène d’ARNt Fenêtre suivante
Non
Non
Oui
Oui
Oui
Oui
Base T SG = SG +1
(6)
(7)
bras anticodon
Intron
Base située en 5’ de l’anticodon
SG 5
Prédiction d’un gène d’ARNt Fenêtre suivante
Non
Non
Oui
Oui
Oui
Oui
Base T SG = SG +1
(6)
(7)
Fichant & Burks, 1991
12 11 1013
18
19
20 2122
29
28
23 24 2526
27
30
3132
3334 35 36
37
3839
40
41
42
4344
45
4647
5556
5453
48
5250 5149
e21e22
e23e24
e25e25
e26e27
e1e3e2
e4e5e17
e16e15
e14e13
e12e1120B20A
17A
intron
Bras anticocon
Boucle var
12 11 1013
18
19
20 2122
29
28
23 24 2526
27
30
3132
3334 35 36
37
3839
40
41
42
4344
45
4647
5556
5453
48
5250 5149
e21e22
e23e24
e25e25
e26e27
e1e3e2
e4e5e17
e16e15
e14e13
e12e1120B20A
17A
intron
Bras anticocon
Boucle var
Le programme tRNAscan-SE
Combinaison de 3 méthodes :Combinaison de 3 méthodes :- tRNAscantRNAscan
algorithme de Pavesialgorithme de PavesiExcellente sensibilité (> 99%)nombreux faux positifs
TRNAscan-SE est le programme le plus utilisé pour recherche de gènes d’ARNt
- algorithme de Pavesialgorithme de Pavesirecherche de signaux de transcription
- CovelsCovels (modèles de covariance)excellente spécificité mais très lent
nombreux faux positifs
seuls les gènes détectés par les méthodes précédentes sont testés
TRNAscan SE est le programme le plus utilisé pour recherche de gènes d ARNt
Excellents résultats chez procaryotes et eucaryotes
Fournit position des éventuels introns
Prédiction de certains pseudogènes d’ARNt
9
snoRNA (small nucleolar RNA) longueur : 6o à 300 nt gènes souvent localisés dans les introns présence chez Archaea et Eucaryotes maturation des ARNr, des snRNA et des ARNt
Box C/D snoRNAs Box H/ACA snoRNAs
conversion of uridines to pseudouridine
=>methylation
m3Gppp : trimethylguanosine cap structure
p
d’après Kiss, Cell, 2002
snoscan (Lowe et al, Nature 1999)
snoGPS (Schattner et al, Nucleic Acids Res 2004)
micro ARN (miRNA)
qq dizaines à plusieurs centaines de bp
20-24 nt
pol II
d’après Novina et al, Nature 2004
10
micro ARN (miRNA)
Zhang et al, Computational biology and chemistry, 2006
Localisation des cibles des micro ARN : - complémentarité (forte chez plantes)- localisation préférentielle dans 3’UTR chez animaux
ex: TargetScan, miRanda…
Plan
3 A i d é3. Annotation des génomesa) Annotation structurale : localisation des éléments génétiques
éléments répétés gènes des ARN stables (ARNr, ARNt...) gènes protéiques pseudogènes régions régulatrices régions régulatrices
b) Annotation fonctionnellec) Intégrations
11
Chez les Procaryotes:les longues “Open Reading Frames” (>500 bases) ont une forte probabilité de correspondre à un véritable gène
Prédiction des gènes protéiques
Problèmes rencontrés chez les Procaryotes et les Eucaryotes
Chez les Eucaryotes:• la faible densité de codage • la taille des gènes (cf taille et nombre des introns)• le splicing alternatif
Les grandes catégories d’approches pour la détection de gènes
• Approches empiriques (pour les Procaryotes)
Génomique
• Approches empiriques (pour les Procaryotes)
• Prédictions ab initio méthodes intrinsèques
• Méthodes basées sur la similarité méthodes extrinsèques
• Méthodes qui combinent les 2 approches précédentes
Approche empirique
• longs cadres ouverts de lecture • recherche d’un codon initiateur * *
Open Reading Frame (=ORF)
startgène
APE1094
APE1097
APE1088
APE1092
APE1091
APE1090
APE1089
(2)(1)APE1087
APE1093
APE1095
APE1096
Exemple : une région annotée du génome de Aeropyrum pernix
Génomique
Annotation initiale : 2694 gènes protéiquesRé-annotation : estimation maximale de 1873 gènes (Natale et al, 2000)
p g g py pGène fortement conservéGène faiblement conservéAbsence de similarité
Gènes non prédits lors de l’annotation initiale(1) Protéine ribosomique L39e(2) Protéine conservée chez les Archées
12
Prédictions ab initio chez les Procaryotes
GLIMMER : Gene Locator and Interpolated Markov Modeler
Quelques programmes : Genemark, Glimmer, Ecoparse,...
Les étapes :
1 - définition de l’ensemble de gènes de référence (training set)
2 - construction des modèlesIMM (Interpolated Markov Models) dans GLIMMER 1.0ICM (Interpolated Context Models) dans GLIMMER 2.0
3 é l ti d é d t t ti ll f ti d dèl
Génomique
3 - évaluation des séquences codantes potentielles en fonction des modèles
4 – résolution des problèmes de chevauchements (overlaps)
1- Définition de l’ensemble de référence
• Identification de toutes les “Open Reading Frames” (ORFs)dans les 6 cadres avec une longueur > seuil (~ 90 bp par défaut)
• Sélection des ORFs qui vont constituer la banque de référence- à partir de gènes connus (expérimentalement)
5’ 3’
- à partir de gènes connus (expérimentalement)- à partir du génome longueur > 500 bp
absence de chevauchement avec une ORF > 500 bp
Obtenir un ensemble importants de gènes “fiables”
Génomique
5’ 3
13
2 - Construction du modèle (cas des IMM) Calcul des fréquences des oligomères (longueur 1 à k+1) pour les 6 cadres
avec k=ordre du modèle
Sx,i Base sx
Contexte de sx de longueur i
sxsx-1…sx-i+2sx-i+1sx-i sxsx-1…sx-i+2sx-i+1sx-i
Sx
Séquence Sx de longueur i+1
xSfSPSP )()()( F é b é
Estimation de la probabilité d’occurrence d’une base connaissant son contexte (i bases précédentes)
Génomique
acgtb
ixixxxi
bSffSsPSP
),()()()(
,, Fréquences observées
exemple : P(G|AATC)=
f(AATCG)
f(AATCA)+f(AATCC)+f(AATCG)+f(AATCT)
2 - Construction du modèle (cas des IMM)• Pondération de l’importance des différents oligomères dans le modèle
à chaque estimation de probabilité Pi(Sx) est associée une valeur i(Sx-1)
0 ≤ i(Sx 1) ≤ 1 dépend de la fréquence d’occurrence observée 0 ≤ i( x-1) ≤ p qpour l’oligomère Sx-1
sxsx-1…sx-i+2sx-i+1sx-i sxsx-1…sx-i+2sx-i+1sx-i
Sx,i
Sx
Génomique
acgtb
ix
xixxxi
bSfSfSsPSP
),()()()(
,, Fréquences observées
14
3 - Evaluation des gènes potentiels (cas des IMM)La probabilité que le modèle M génère la séquence S est :
n
x
xSMSP1
8 )(IMM IMM8(Sx) : score de l’oligomère Sx dans le modèle de 8e ordreSx : oligomère se terminant à position xn : longueur de la séquence.
)(IMM)(1)()()(IMM 111 xkxkxkxkxk SSSPSS
ATG…………..……ATCTCAAATAC………………TAA1 nx
Gène potentiel
IMM8(Sx)= λ(TCTCAAAT) X P(TCTCAAATA) + [1-λ(TCTCAAAT)] X IMM7(Sx)Si λ(TCTCAAAT)=0.9 et λ(CTCAAAT)=1 :IMM8(Sx)= 0.9 X P(A | TCTCAAAT) + 0.1X λ(CTCAAAT)X P(A | CTCAAAT))IMM8(Sx)= 0.9 X P(A | TCTCAAAT) + 0.1X P(A | CTCAAAT)
Génomique
sxsx-1…sx-i+2sx-i+1sx-i sxsx-1…sx-i+2sx-i+1sx-i
Sx,i
Sx
k(Sx-1) : poids associé au kmer se terminant à la position x-1 dans la séquence S
Pk(Sx) : estimation de la probabilité d’avoir la base observée à la position x dans le modèle d’ordre k.
Construction du modèle (cas des ICM)
s8s7s6 s9s5s4s3s2s1 s8s7s6 s9s5s4s3s2s1
j=7
Arbre de décision
s8as6 s9s5s4s3s2s1 s8as6 s9s5s4s3s2s1 s8ts6 s9s5s4s3s2s1 s8ts6 s9s5s4s3s2s1 s8cs6 s9s5s4s3s2s1 s8cs6 s9s5s4s3s2s1 s8gs6 s9s5s4s3s2s1 s8gs6 s9s5s4s3s2s1
s8ta s9s5s4s3s2s1 s8ta s9s5s4s3s2s1 s8tt s9s5s4s3s2s1 s8tt s9s5s4s3s2s1 s8tg s9s5s4s3s2s1 s8tg s9s5s4s3s2s1s8tc s9s5s4s3s2s1 s8tc s9s5s4s3s2s1
j=6 j=8 j=5j=6
j=8 j=4 j=8j=8
b7=a b7=t b7=c b7=g
b6=a b6=t b6=c b6=g
Génomique
Décomposition s’arrête :- quand on atteint une profondeur seuil- quand les séquences d’un sous-ensemble sont trop peu nombreuses dans le « training set »
Interpolation : combinaison linéaire entre distribution d’un nœud père et d’un nœud fils
15
4 - Résolution des problèmes de chevauchement
Recherche d’un autre
codon initiateur Cas possibles
Non
Recherche d’un autre
codon initiateur Cas possibles
Non5’ 3’A
B3’ 5’
5’ 3’AB
3’ 5’3’ 5’ 5’ 3’A
Score de A >Score de B
Exemple
gène A
gène B
gènes A et B
gène A
gène B
gènes A et B
5’
3’AB
5’ 3’5’
3’AB
5’ 3’B
5’ 3’5’ 3’A
B5’ 3’
5’ 3’AB
5’ 3’B
5’ 3’
B5’ 3’
3’ 5’AB
5’ 3’B
5’ 3’
3’ 5’A
3 53 53 55’ 3’
AB
5’ 3’
5’ 3’AB
Nouveau codon start
Génomique
Pas d’autre codon start
5’ 3’A
Longueur A >> longueur B
5’ 3’
5’ 3’AB
Overlap maintenu
Glimmer is a system for finding genes in microbial DNA, especially the genomes of bacteria and archaea. Glimmer (GeneLocator and Interpolated Markov Modeler) uses interpolated Markov models (IMMs) to identify the coding regions anddistinguish them from noncoding DNA.
Génomique
http://www.tigr.org/softlab/glimmer/glimmer.html#refs
16
Composition et surprédiction
Codons stop : TAA, TAG, TGA(riches en A et T)
Moins de codons stop dans les génomes riches en GC
Génomique
Estimation du pourcentage de sur-prédictions par rapport au nombre de gènes prédits en fonction du %GC (d’après Skovgaard et al. 2001)
Plus d’ORF longs par hasard
Sous-prédictions
N° d’accès Description Longueur(aa)
P58077 50S ribosomal protein L21e 107
P58085 50S ribosomal protein L29p 66
Gènes de petite tailleGènes de petite taille
Gènes de composition Gènes de composition P58026 50S ribosomal protein L34e 95
O29720 DNA gyrase subunit B 632
P58001 Probable exodeoxyribonuclease VIIsmall subunit
72
P58061 Probable protein export membraneprotein SECG
77
P58189 50S ribosomal protein L31e 95
P58078 30S ribosomal protein S27e 65
P58193 Probable translation factor SUIIh l
99
Gènes de composition Gènes de composition biaiséebiaisée
Gènes présentant des Gènes présentant des frameshiftsframeshifts
Génomique
Exemples de protéines codées par des gènes découverts lors de la ré-annotation de 26 génomes (d’après Bocs et al. 2002)
homolog
P58008 Hypothetical protein TM0562.1 192
P58093 Hypothetical protein VCA0360.1 80
17
Problème du codon initiateur
BACTER
Importance du contexte évolutif
MRIRLEHGAGGEL
ARCHAEA
IA
BACTER
Génomique
Hydrogenase expression/formation proteins (Nter)
ARCHAEA
IA
Ortho-protéogénomique
Couplage
Mycobacterium smegmatis
Protéogénomique
Nouvelle méthode de marquage des peptides N-terminaux
Génomique comparative
Protocole de propagation
16 génomes de MycobacteriumMycobacterium smegmatis
annotation initiale TIGR
29 protéines non prédites 19% erreurs
3 727 séquences validées
601 séquences corrigées
Taux d’erreur : 9 à 21%Moyenne : 1 gène sur 7 !
946 protéines identifiées 443 peptides N-terminaux
Gallien et al., Genome Research 2009
18
Ortho-protéogénomique
7084% 16%
20
30
40
50
60
70
ombr
e de
séq
uenc
es ATG
GTGTTG
75% des extensions > 5 aa
0
10
0
>29 27 24 21 18 15 12 9 6 3 1 4 7 10 13 16 19
Longueur de l’extension (aa) Longueur de la délétion (aa)
No
Approches complémentaires
Recherche de similarité pour les gènes potentiels valider un grand nombre de gènes
Recherche de similarité dans les régions intergéniques « récupérer » des petits gènes récupérer des petits gènes
Utilisation de la synténie (conservation de l’ordre) entre génomes proches éviter certaines erreurs
Hyp.
Pyrococcus horikoshii P. abyssi et P. furiosus
Génomique
Enolase
rpoN
tRNAEnolase
rpoN
tRNArpoK
19
Prédiction de gènes ab initio chez les Eucaryotes
Principe :
• signaux de transcription• Transcription Start Site (TSS)• TATA-box• TATA-box• signal de polyadenylation (hexamère consensus AATAAA)• transcription factor binding site, enhancer,...
• Signaux de splicing :
exon exon
intron5’ 3’
Site donneur Site accepteur
Génomique
• distribution des longueurs et des caractéristiques de composition
(C,A)AG || GT(A,G)AGT (T,C)n N(C,T)AG || G
ExonsIntronsRégions intergéniques
Prédiction de gènes ab initio chez les Eucaryotes
Quelques programmes :
GENIE HMMGENSCAN HMMHMMGENE HMMGeneMarkHMM HMMGRAIL neural networkGeneFinder Rule-based systemWise2/GenewiseGrail/ExpGenie ESTGenomeScanTwinscan...
ab initio +similarity data
Génomique
Prediction of complete Gene Structures in Human Genomic DNA.Burge and Karlin JMB 268:78-94 (1997)
Modèle général de la structure des séquences génomiques (Genscan)
20
1.0 : exons optimaux1.0 <p<0.1 : exons suboptimaux
VertebrateA. thalianaMaize
p<0.1 : explosion du nombrede prédictions
Jusqu’à 1 Mbp
Génomique
Jusqu à 1 Mbp...
11.16 PlyA - 77036 77031 6 1.0511.15 Term - 78677 78591 87 2 0 64 44 157 0.990 10.5811 14 I t 78906 78838 69 0 0 43 71 91 0 984 6 36
Gn.Ex Type S .Begin .End Len Fr Ph I/Ac Do/T CodRg P Tscr----- ---- - ------ ------ ---- -- -- ---- ---- ----- -----
Exemple de résultats fournis par Genscan
exon terminal
Site accepteur
Site donneur
Région codante
11.14 Intr - 78906 78838 69 0 0 43 71 91 0.984 6.3611.13 Intr - 79164 79117 48 0 0 73 99 11 0.926 3.6611.12 Intr - 79403 79326 78 2 0 71 90 -3 0.803 2.0311.11 Intr - 79631 79518 114 2 0 62 113 146 0.994 19.2211.10 Intr - 80252 79726 527 0 2 1 33 421 0.376 24.6311.09 Intr - 80525 80402 124 2 1 64 25 141 0.998 9.6411.08 Intr - 81092 81027 66 2 0 56 115 70 0.999 9.6811.07 Intr - 81345 81190 156 0 0 45 72 165 0.493 14.8911.06 Intr - 81501 81445 57 0 0 91 87 88 0.521 12.1611.05 Intr - 81894 81850 45 0 0 126 99 -9 0.990 6.6911.04 Intr - 82230 82111 120 0 0 67 55 54 0.508 4.7711.03 Intr - 82361 82286 76 1 1 -10 81 77 0.999 0.8011.02 Intr - 82570 82456 115 2 1 62 77 153 0.997 15.19
exon interne
Génomique
11.01 Init - 83435 83408 28 2 1 68 89 38 0.768 6.7111.00 Prom - 83883 83844 40 -12.72
12.00 Prom + 83889 83928 40 -13.5912.01 Init + 84013 84037 25 0 1 43 69 67 0.847 5.0412.02 Intr + 84210 84321 112 1 1 44 115 141 0.804 15.9212.03 Term + 84556 84637 82 1 1 46 37 48 0.725 -3.3112.04 PlyA + 84889 84894 6 1.05
exon initial
probabilité Score de l’exon
21
Programmes de prédiction ab initio
GénomiqueWang et al, Genomics, Proteomics, Bioinformatics 2004
Comparaison de programmes de prédiction
Données test : Séquence de 2.9 Mb du génome de Drosophila (région Adh)
GénomiqueGenome annotation assessment in Drosophila melanogaster Reese et al. Genome Research. 10: 483-501 (2000)
Sensibilité : proportion d’événements prédits sur l’ensemble des événements à prédire
Spécificité : proportion de prédictions correctes sur l’ensemble des prédictions Sp = VPVP+FP
Sn = VPVP+FN
22
Limites des approches intrinsèques (prédiction ab initio)
Importance de l’ensemble d’apprentissage=> amélioration si apprentissage directement sur espèce à annoter=> amélioration si grand nombre de gènes connus expérimentalement
Défauts majeurs:=> très faible spécificité=> bornes exactes mal prédites=> petits exons et introns atypiques mal prédits=> éléments régulateurs non prédits (ou très mal)
Sensibilité réduite pour les gènes à évolution rapide (Ka/Ks élevé dans comparaisons interspéciques)
Génomique
Ka : nb de substitutions non synonymesKs : nb de substitutions synonymes
Si Ka/Ks ~ 1 => évolution neutreSi Ka/Ks <1 => contraintes sélectivesSi Ka/Ks > 1 => évolution adaptative
Prédiction par approches comparatives (extrinsèques)
5’ 3’ 3’EST EST5’
• séquence génomique banque des ADNc et EST pour identifier exons et introns
• séquence génomique traduite dans les 6 cadres banque de protéines
5’ 3’
5’3’ EST
contig
q g q q p(BLASTX)
• comparaison de séquences génomiques très proches pour identifier les régions conservées (exons, signaux de transcription) => synténie
23
Windsor & Mitchell-Olds, Curr. Opinion in Biotechnology, 2006
Approche mixte
Programmes
SimilaritéGenie etGenscan Genie Genscan
Nonprédits
Total
EST et protéines 6 040 288 239 49 6 616
EST seules 1 357 143 107 34 1 641
Protéines seules 2 541 157 220 78 2 996
Prédictions ab initio
mil
arit
é
Résultats obtenus lors de l’annotation du génome de D. melanogaster
Protéines seules 2 541 157 220 78 2 996
Absence de similarité 1 980 307 - 0 2 348
Total 11 918 895 627 161 13 601
d’après Adams et al., 2000
sim
24
Evaluation of gene predictions (EGASP project)
Accuracy (compared to ENCODE)Relatedgenome
Protein and expression data
All available evidence
Picardi & Pesole, Methods Mol Biol. 2010
Ab initio Ab initio + similarity
Nombre de gènes et taille du génome
9000
4000
5000
6000
7000
8000
9000
Nom
bre
de g
ènes E. coli 1
C. acetobutylicum
S. coeli-color
M. acetivorans
Procaryotes => 1gène protéique / 1Kb
0
1000
2000
3000
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
Taille du génome (Kb)
N
M. leprae
A. pernix
M. genitalium
T. acidophilum
25
60 000 predicted genes, 26 000 evidence-supported genes
Large Dna viruses
BacteriaBacteriaArchaea
Unicellular eukaryotesMulticellular eukaryotes
Koonin, 2009 The International Journal of Biochemistry & Cell Biology
Nombre de gènes et taille du génomeFraction de l’euchromatine occupée par des éléments répétés de type transposonsEucaryotes
123456789
1 H. sapiens2 A. gambiae3 D. melanogaster4 C.elegans
6 P. falciparum7 S. pombe8 S. cerevisiae9 E. cuniculi
5 A. thaliana
Fraction codanteFraction non codante
123456789
1 H. sapiens2 A. gambiae3 D. melanogaster4 C.elegans
6 P. falciparum7 S. pombe8 S. cerevisiae9 E. cuniculi
5 A. thaliana
Fraction codanteFraction non codante
0% 20% 40% 60% 80% 100%
H. sapiens
A. gambiae
A thaliana
C. elegans
D. melanogaster
E. cuniculi
Introns : de 1 à 2 par génome chez certains diplomonads à une moyenne de 5 à 8 introns par gène chez les vertébrés.
26
Complexité et nombre de gènes chez les Eucaryotes
C. elegans
A thaliana
H. sapiens
E. cuniculi
S. pombe
P. falciparum
S. cerevisiae
D. melanogaster
A. gambiae
g
Génomique
0 5000 10000 15000 20000 25000 30000 35000
Nombre de gènes estimés
En nombre de gènes : 1 homme = ~ 4 levures
Complexité et nb de gènes chez les Eucaryotes
S cerevisiae
D. melanogaster
A. gambiae
C. elegans
A thaliana
H. sapiens
0 5000 10000 15000 20000 25000 30000 35000
Nombre de gènes estimés
E. cuniculi
S. pombe
P. falciparum
S. cerevisiae
27
Complexité et nb de gènes chez les Eucaryotes
Complexité/organisation modulaire des protéines
Y=yeast, W=worm, F=fly, y , , y,V=vertebrate, H=human
The genome international sequencing consortium Nature 409:860-921 (2001)
28
Complexité : importance de l’ARN
Génération des ARNm: Génération des ARNm: Sites d’initiation de la transcription alternatifs Epissage alternatif Sites de polyadénylation alternatifs
Après génération des isoformes d’ARNm matures:é Régulation de la traduction par les miRNA
Sites alternatifs de début de traduction...
Alternative splicing
l i ’ li i l iAlternative 5’ splice-site selection
Alternative 3’ splice-site selection
Cassette-exon inclusion or skipping
Intron retention
Nilsen & Graveley, Nature, 2010
29
GénomiqueMc Guire et al, Genome Biology, 2008
Alternative splicing and diversity:the Dscam gene in Drosophila
Axon guidancereceptor
38 000 different mRNA isoforms
38 000 distinct receptors
Alternative splicng: increasing diversity in the proteomic world. Graveley. TRENDS in Genetics. 17:100-107 (2001)
receptor
30
Examples of alternative mRNA processing
Processing
mRNA isoforms
Processing
Licatalosi and Darnell, NATuRe RevIewS Genetics, 2010pA : site de polyadénylation
Plan
3 A i d é3. Annotation des génomesa) Annotation structurale : localisation des éléments génétiques
éléments répétés gènes des ARN stables (ARNr, ARNt) gènes protéiques pseudogènes régions régulatrices régions régulatrices
b) Annotation fonctionnellec) Intégrations
31
Les pseudogènes
Copie non fonctionnelle d’un gène actif dans l’ADN génomiqueDéfinition
Perte de fonction résulte de :- l’échec de la transcription (la plupart du temps)- l’échec de la traduction- la production d’une protéine non fonctionnelle (?)
Pb pour l’annotation (nombreuses erreurs dans les banques)
Problèmes posés par les pseudogènes
Génomique
ImportanceDifficile à estimer : détection exhaustive impossible
Pb pour les PCR…
Importance des pseudogènes dans les génomes complets
Génomique
Zhang et al Curr. Opinion in Genet. Dev. 2003
32
Origine des pseudogènes ?
1) Retrotransposition “processed pseudogenes”• Transcription réverse d’1 ARNm totalement ou partiellement épissé• Intégration du rétrotransposon dans le génome
Génomique
Retropseudogènes et retrotransposons
éléments répétés => fertiles (présence d’un promoteur)
élément “mort” généralement
Génomique
RT : reverse transcriptase, EN : endonuclease
généralement
Weiner, Curr Opiniion in Cell Biol, 2002
33
Exemple de rétropseudogène
PTEN/MMC1 : code pour une phosphatase de 403 aagène suppresseur de tumeur, mutation favorise apparition de cancers de la thyroïde et du sein
Pseudogène PsiPTEN (processed pseudogene)19 diffé i d l é léi l é i d t (12 t ti téi )19 différences au niveau de la séquence nucléique pour la région codante (12 mutations au nv protéique)Absence du codon d’initiationAbsence d’introns
Génomique
Exprimé dans tous les tissus testésPour certains, l’ARNm représente 70% du total !
Fujii et al. Oncogene 1999
Origine des pseudogènes ?
2) Duplication d’ADN génomique (non processed pseudogenes)• Duplication d’un gène fonctionnel• Dégradation progressive du gène (relâchement de la pression de sélection)
délétions, réarrangements• Le gène devient non fonctionnel
Génomique
34
Exemple de pseudogèneGlutathione S-transferase Alpha 1 (GSTA1)
le gène
le pseudogène
Génomique
le pseudogèneissu d’une duplication
Alignement du transcrit de GSTA1 et du « transcrit » du pseudogène
5’ UTR
3’ UTR
35
Les pseudogènes
10% des gènes humains auraient au moins 1 pseudogène
Répartition des pseudogènes chez la souris en fonction de la classification GO
Génomique
Zhang et al. Trends in Genetics 2004
Détection des pseudogènes ?
• Absence d’introns (ou nombre très limité)
P t d t• Perte du promoteur
• Présence d’éléments répétés aux 2 extrémités (flanking direct repeats)
• Accumulation de frameshifts, de codons stop
• Accumulation de mutations : ratio (mutations non synonymes/ mutations synonymes) augmente
Génomique
ratio (mutations non synonymes/ mutations synonymes) augmente
36
Plan
3 A i d é3. Annotation des génomesa) Annotation structurale : localisation des éléments génétiques
éléments répétés gènes des ARN stables (ARNr, ARNt) gènes protéiques pseudogènes régions régulatrices régions régulatrices
b) Annotation fonctionnellec) Intégrations
Recherche des éléments régulateurs
Problèmes• Séquences courtes• Situées à des distances variables Situées à des distances variables
du gène régulé
TRANSFAChttp:///www.gene-regulation.com
Banque consacrée à la régulation de la transcription chez les eucaryotes :
Site de fixation de Gal4 chez la levure
Génomique
- facteurs de transcription- les gènes cibles- les sites de fixation des facteurs
37
Recherche des éléments régulateurs
Génomique
http://www.gene-regulation.com
Recherche des éléments régulateursPhylogenetic footprinting• Positionnement des gènes orthologues entre organismes assez proches• Alignement des séquences intergéniques correspondantes• Recherche des régions de plus forte conservation
sites fonctionnels conservés
Région intergénique de S cerevisiae
sites fonctionnels conservés
GénomiqueHarbinson et al. Nature 2004
de S. cerevisiae
38
Phylogenetic footprinting
CDS
hommehomme
souris
seuil
Génomique
http://www.phylofoo.org/consite
Sandlin et al., Nucleic acids research 2004
Phylogenetic footprinting
GénomiqueVenkatesh & Yap, Bioessays 2005
39
Phylogenetic footprinting/shadowing
Recherche d’éléments communs à un grand groupe► Phylogenetic footprinting
Ex pour les mammifères : comparaison homme/souris (séparation : 75 millions d’années)
Recherche d’éléments plus récents► Phylogenetic shadowing
Ex : trait apparu chez les primates
Pb: forte conservation distinction impossible entre conservation
Génomique
distinction impossible entre conservation fonctionnelle et conservation passive
augmenter la divergence en multipliant le nombre d’espèces
Phylogenetic shadowing
Génomique
40
Phylogenetic shadowing
Test sur les bornes
exon/intron
faible contrainte
Contrainte sur la mutabilité de chaque site calculée à partir
de séquences de primates
forte contrainte
Génomique
% conservation entre les séquences homme et souris
Région génomique contenant l’exon 19 du gène apo-B
Boffelli et al, Science 2003
Phylogenetic shadowing
Test sur les bornes
exon/intron
faible contrainte
Contrainte sur la mutabilité de chaque site calculée à partir
de séquences de primates
forte contrainte
Génomique
% conservation entre les séquences homme et souris
Région génomique contenant l’exon 8 du gène CETP
Boffelli et al, Science 2003
41
Phylogenetic shadowing
TATA box Site de fixation d’un facteur de transcription
Recherche d’éléments régulateurs
p
Génomique
Séquence génomique contenant l’exon 1 de apo(a) et la région en 5’.
Boffelli et al, Science 2003
Phylogenetic shadowing
% e
xpre
ssio
n
GénomiqueBoffelli et al, Science 2003
42
Conservation des éléments régulateurs
conservation d’un enhancer localisé dans un intron de DACH
Génomique