Annotation de séquences génomiques: gènes

26
Annotation de séquences génomiques: gènes Olivier Garsmeur Gaétan Droc Franc-Christophe Baurens Dominique This Stéphanie Sidibé-Bocs

description

Annotation de séquences génomiques: gènes. Olivier Garsmeur Gaétan Droc Franc-Christophe Baurens Dominique This Stéphanie Sidibé-Bocs. Annotation des séquences génomiques. Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2 principales questions : - PowerPoint PPT Presentation

Transcript of Annotation de séquences génomiques: gènes

Page 1: Annotation de séquences génomiques: gènes

Annotation de séquences génomiques: gènes

Olivier GarsmeurGaétan Droc

Franc-Christophe BaurensDominique This

Stéphanie Sidibé-Bocs

Page 2: Annotation de séquences génomiques: gènes

Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2

principales questions :

1) Où sont les gènes et comment sont-ils distribués ?

Distinguer gènes et éléments transposables

Annotation structurale

2) Quelle est la fonction de ces gènes ?

Annotation fonctionnelle

Annotation des séquences génomiques

Page 3: Annotation de séquences génomiques: gènes

Les gènes

● Ou sont les gènes? ● Les prédictions sont basées sur la structure (motifs, signatures ): intron,

exon, splice site, UTR.

Gene

StopGT AG

Gène prédit fonctionnel Structure complète

Codon initiateur M (ATG)Stop codon TAA, TAG or TGAGT (GC) / AG splicing sitePas de stop dans les exons prédits

Pseudogene (non fonctionnel) Structure NON complete

missing_acceptormissing_donormissing_start_codonmissing_stop_codonmultiple_stop_in_frame

CDS (CoDing Sequence)

ATG

Exon1 Exon2

Page 4: Annotation de séquences génomiques: gènes

Annotation automatique

Deux méthodes d'annotation automatique :

1. Méthodes intrinsèques (ab-initio)

2. Méthodes extrinsèques

Page 5: Annotation de séquences génomiques: gènes

-Basée uniquement sur des analyses informatiques avec des

modèles statistiques

-Modèles probabilistes (Hidden Markov Models - Modèles de

chaîne de Markov cachées - HMM) pour faire la distinction entre

les régions codantes et non-codantes du génome

- Besoin d'un set d'entraînement de gènes annotés pour être

efficace "apprentissage"

1. Méthode intrinsèque d'annotation automatique

Page 6: Annotation de séquences génomiques: gènes

1. Méthode intrinsèque d'annotation automatique

Lukashin & Borodovsky, 1998

ensemble des transitions possibles entre états cachés (cercles)

brin direct

brin complémentaire

Page 7: Annotation de séquences génomiques: gènes

Exemples de logiciels de prédiction des gènes

Outils d'annotation automatique des gènes

Plantes: GeneMark.HMMGeneFinderEugeneFgeneSHGlimmerAAugustus

Animaux:GenieHMMgeneMagPieGenIDGrail

Humain:GenescanGeneFinderGeneWise

Page 8: Annotation de séquences génomiques: gènes

2. Méthodes extrinsèques

ADNg

Protéine

AlignementADNg - Protéine

AlignementADNg - ADNc

ADNc ADNg

AlignementADNg - ADNg

Approche comparative basée sur les similarités de séquences

-> la séquence à annoter est comparée aux bases de données

3 types de comparaison

Page 9: Annotation de séquences génomiques: gènes

L'annotation fonctionnelle sera toujours déduite des

similarités (homologies) avec les éléments prédits

dans les bases de données

sequence (query) target (Subject) database

BLASTN nucleotide nucleotide NR , EST, genomes

BLASTX translated nucleotide protein Swissprot-Trembl

BLASTP protein protein Swissprot-Trembl

TBLASTX translated nucleotide translated nucleotide NR , EST, genomes

TBLASTN protein translated nucleotide NR , EST, genomes

2. Méthodes extrinsèques

Page 10: Annotation de séquences génomiques: gènes

Bases de Données de signatures de domaines protéiques qui peuvent être utilisées pour la classification et l'annotation automatique des protéines

Interproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sites importants

Domaines protéiques conservés = signatures

http://www.ebi.ac.uk/interpro/

2. Méthodes extrinsèques

BD de domaines utilisées par Interproscan :

Prosite patternsPfamProDomSuperfamily TIGRFAMsGENE3DHAMAPPANTHERPIRSF

Page 11: Annotation de séquences génomiques: gènes

Bases de données…oui, mais…

Les bases séquences protéiques sont pour la grande majorité uniquement le résultat de la traduction in-silico de séquences nucléiques (pas de certitude biologique) exemple: Trembl database = traduction automatique de NR database. (protéines incomplètes, fragments).

Swissprot contient un nombre moins important de protéines que Trembl, mais les séquences sont vérifiées manuellement par des bio-curateurs

Les séquences EST sont souvent de mauvaise qualité (séquencage simple brin, erreurs) Cluster d’ESTs disponibles, detection de structures correspondant à des gènes

Les séquences de génomes complets sont très utiles pour faire du transfert d’annotation. Mais seules les espèces proches (phylogénie) donnent une annotation pertinente (divergence, évolution)

Page 12: Annotation de séquences génomiques: gènes

Eléments répétés

Les gènes ne représentent qu’une petite portion du génome

● Les éléments répétés peuvent représenter plus de 80% du génome (blé)différents types

Class Order Superfamily Family Code / Label

Copia opie RLC

Gypsy maggy RLG

Unclassified RLX

L1 RIL

Unclassified RIX

Alu RSA

Unclassified RSX

CACTA DTC

Mutator DTM

Stowaway DTT

Tourist DTH

Helitron Helitron DHH

LTR, long terminal repeat;

LINE, long interspersed nuclear element;

SINE, short interspersed nuclear element;

TIR , terminal inverted repeat.

MITE, Miniature Inverted Transposable Element

DNA transposons

TIR

MITE

LINE

SINE

Retrotransposon

LTR

Classification from Wicker et al (2007). A unified classification system for eukaryotic transposable elements. Nat Rev Genet, 8, 973-982.

Page 13: Annotation de séquences génomiques: gènes

Chez les plantes, les éléments répétés les plus abondants (en terme de % de couverture du génome) sont les LTR retrotranposons

LTR-Retrotransposons, Ty1 (copia) & Ty3 (gypsy)

Page 14: Annotation de séquences génomiques: gènes

On peut filtrer les éléments répétés avant l'annotation des gènes -les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces)

-les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment)

Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée

Repeat masker est l'outil le plus utilisé pour masquer les répétitions

http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker

Masquer les séquences répétées

Page 15: Annotation de séquences génomiques: gènes

Annotation automatique pratique, mais à vérifier manuellement !

Réalisée avec des programmes informatiques, algorithmes statistiques

- le résultat est un équilibre entre faux positifs et faux négatifs- le transfert peut induire des erreurs ou des aberrations

travail humain, donc :

- lent !- également source d'erreur !

Annoter manuellement les gènes dans les régions d'intérêt

Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)

Annotation automatique

Page 16: Annotation de séquences génomiques: gènes

Méthode intégrative = ab-initio + approches comparativesPrédictions ab-initio des gènes couplées aux résultats de similarité avec les bases de données pour

améliorer significativement l'annotation (les méthodes intrinsèques et extrinsèques se complémentent)

Méthode intégrative d'annotation automatique

Page 17: Annotation de séquences génomiques: gènes

Evaluation de la pertinence de l’annotationExemple de l’évaluation de l’annotation sur des séquences de clones BAC Medicago

VP (vrais positifs) gènes prédits, réellement présents = bonne prédictionFP (faux positifs) gènes prédits, mais réellement non présents = sur prédictionFN (faux négatifs) gènes non prédits, mais normalement présents = sous prédictionVN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction

Gene finder Sn N Sp N Sn E Sp E Sn G Sp G

GenScan+ 83.2 98.2 69.6 78 25.8 29

GenMarkHMM 89.9 94.8 73.1 76.6 32.4 31.6

FgenesH-At 95.1 93 85.3 81.4 47 46.5

FgenesH-Mt 97.6 92.1 85.1 80.7 52.8 47.8

EGN 93.7 95 84.7 85.4 55.5 50.5

EGN+FgenesH 97.8 94.2 90 86.9 63.2 56.4

EGN+FH+AA 98.6 93.9 92.4 88 69.2 61.8

EGN+FH+AA+

EST

98.2 99.9 94.4 94.6 80.2 79.4

la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp

Sensibilité =

Spécificité =

Page 18: Annotation de séquences génomiques: gènes

http://eugene.toulouse.inra.fr/

Combiner d'annotation automatique

Page 19: Annotation de séquences génomiques: gènes

C

Eugene

FGenesHBlastx Genome Threader

SpliceMachine Eugene HMM

DNA sequence

blastptblastnInterproscanBBMHGreenphyl

blastptblastnInterproscanBBMHGreenphyl

blastxGThExonerate

STRUCTURAL

FUNCTIONAL

A B

blastxGthExonerate

Eugene: fonctionnement

Page 20: Annotation de séquences génomiques: gènes

EuGène : fichier graphique de sortie

Page 21: Annotation de séquences génomiques: gènes

séquence nucléotidique

gène (7 exons)

transposon

Eléments annotés

exemple de logiciel d'annotation : Artemis

http://www.sanger.ac.uk/resources/software/artemis/

Annotation manuelle

Page 22: Annotation de séquences génomiques: gènes

Dr Stéphanie Sidibe Bocs

http://southgreen.cirad.fr/

Plateforme d'annotation GNPAnnot au CIRAD

Annotateurintégration

vérification

croisement

analyse

Annotation automatique Annotation manuelle

Page 23: Annotation de séquences génomiques: gènes

Plateforme d'annotation GNPAnnot au CIRAD

http://www.gnpannot.org/

Page 24: Annotation de séquences génomiques: gènes

GBrowse : outil de visualisation de l'annotation

séquence

nom et taille de la séquence

Espèce, plateforme d'annotation utilisée

Gènes annotés

Page 25: Annotation de séquences génomiques: gènes

GBrowse : outil de visualisation de l'annotation

séquence

nom et taille de la séquence

Espèce, plateforme d'annotation utilisée

Eléments répétés annotés

Page 26: Annotation de séquences génomiques: gènes

A vous de jouer …

L’annot at ion des génomesCahier de vacances

½ journée