Annotation de séquences génomiques: gènes

Post on 02-Feb-2016

41 views 0 download

description

Annotation de séquences génomiques: gènes. Olivier Garsmeur Gaétan Droc Franc-Christophe Baurens Dominique This Stéphanie Sidibé-Bocs. Annotation des séquences génomiques. Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2 principales questions : - PowerPoint PPT Presentation

Transcript of Annotation de séquences génomiques: gènes

Annotation de séquences génomiques: gènes

Olivier GarsmeurGaétan Droc

Franc-Christophe BaurensDominique This

Stéphanie Sidibé-Bocs

Une fois le séquençage et l’assemblage du génome d’un organisme achevé, 2

principales questions :

1) Où sont les gènes et comment sont-ils distribués ?

Distinguer gènes et éléments transposables

Annotation structurale

2) Quelle est la fonction de ces gènes ?

Annotation fonctionnelle

Annotation des séquences génomiques

Les gènes

● Ou sont les gènes? ● Les prédictions sont basées sur la structure (motifs, signatures ): intron,

exon, splice site, UTR.

Gene

StopGT AG

Gène prédit fonctionnel Structure complète

Codon initiateur M (ATG)Stop codon TAA, TAG or TGAGT (GC) / AG splicing sitePas de stop dans les exons prédits

Pseudogene (non fonctionnel) Structure NON complete

missing_acceptormissing_donormissing_start_codonmissing_stop_codonmultiple_stop_in_frame

CDS (CoDing Sequence)

ATG

Exon1 Exon2

Annotation automatique

Deux méthodes d'annotation automatique :

1. Méthodes intrinsèques (ab-initio)

2. Méthodes extrinsèques

-Basée uniquement sur des analyses informatiques avec des

modèles statistiques

-Modèles probabilistes (Hidden Markov Models - Modèles de

chaîne de Markov cachées - HMM) pour faire la distinction entre

les régions codantes et non-codantes du génome

- Besoin d'un set d'entraînement de gènes annotés pour être

efficace "apprentissage"

1. Méthode intrinsèque d'annotation automatique

1. Méthode intrinsèque d'annotation automatique

Lukashin & Borodovsky, 1998

ensemble des transitions possibles entre états cachés (cercles)

brin direct

brin complémentaire

Exemples de logiciels de prédiction des gènes

Outils d'annotation automatique des gènes

Plantes: GeneMark.HMMGeneFinderEugeneFgeneSHGlimmerAAugustus

Animaux:GenieHMMgeneMagPieGenIDGrail

Humain:GenescanGeneFinderGeneWise

2. Méthodes extrinsèques

ADNg

Protéine

AlignementADNg - Protéine

AlignementADNg - ADNc

ADNc ADNg

AlignementADNg - ADNg

Approche comparative basée sur les similarités de séquences

-> la séquence à annoter est comparée aux bases de données

3 types de comparaison

L'annotation fonctionnelle sera toujours déduite des

similarités (homologies) avec les éléments prédits

dans les bases de données

sequence (query) target (Subject) database

BLASTN nucleotide nucleotide NR , EST, genomes

BLASTX translated nucleotide protein Swissprot-Trembl

BLASTP protein protein Swissprot-Trembl

TBLASTX translated nucleotide translated nucleotide NR , EST, genomes

TBLASTN protein translated nucleotide NR , EST, genomes

2. Méthodes extrinsèques

Bases de Données de signatures de domaines protéiques qui peuvent être utilisées pour la classification et l'annotation automatique des protéines

Interproscan : classe les séquences en superfamilles, familles et sous-familles; prédit l'occurrence des domaines fonctionnels et des sites importants

Domaines protéiques conservés = signatures

http://www.ebi.ac.uk/interpro/

2. Méthodes extrinsèques

BD de domaines utilisées par Interproscan :

Prosite patternsPfamProDomSuperfamily TIGRFAMsGENE3DHAMAPPANTHERPIRSF

Bases de données…oui, mais…

Les bases séquences protéiques sont pour la grande majorité uniquement le résultat de la traduction in-silico de séquences nucléiques (pas de certitude biologique) exemple: Trembl database = traduction automatique de NR database. (protéines incomplètes, fragments).

Swissprot contient un nombre moins important de protéines que Trembl, mais les séquences sont vérifiées manuellement par des bio-curateurs

Les séquences EST sont souvent de mauvaise qualité (séquencage simple brin, erreurs) Cluster d’ESTs disponibles, detection de structures correspondant à des gènes

Les séquences de génomes complets sont très utiles pour faire du transfert d’annotation. Mais seules les espèces proches (phylogénie) donnent une annotation pertinente (divergence, évolution)

Eléments répétés

Les gènes ne représentent qu’une petite portion du génome

● Les éléments répétés peuvent représenter plus de 80% du génome (blé)différents types

Class Order Superfamily Family Code / Label

Copia opie RLC

Gypsy maggy RLG

Unclassified RLX

L1 RIL

Unclassified RIX

Alu RSA

Unclassified RSX

CACTA DTC

Mutator DTM

Stowaway DTT

Tourist DTH

Helitron Helitron DHH

LTR, long terminal repeat;

LINE, long interspersed nuclear element;

SINE, short interspersed nuclear element;

TIR , terminal inverted repeat.

MITE, Miniature Inverted Transposable Element

DNA transposons

TIR

MITE

LINE

SINE

Retrotransposon

LTR

Classification from Wicker et al (2007). A unified classification system for eukaryotic transposable elements. Nat Rev Genet, 8, 973-982.

Chez les plantes, les éléments répétés les plus abondants (en terme de % de couverture du génome) sont les LTR retrotranposons

LTR-Retrotransposons, Ty1 (copia) & Ty3 (gypsy)

On peut filtrer les éléments répétés avant l'annotation des gènes -les TEs peuvent être confondus avec des gènes codant pour des protéines (transposases et traces)

-les TEs perturbent la structure des modèles de gène, en s'insérant dans les introns par exemple (longues insertions, le modèle de gène est coupé fréquemment)

Mais ce n’est pas une obligation, surtout si on veut pouvoir décrire l’ensemble des éléments d’une région donnée

Repeat masker est l'outil le plus utilisé pour masquer les répétitions

http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker

Masquer les séquences répétées

Annotation automatique pratique, mais à vérifier manuellement !

Réalisée avec des programmes informatiques, algorithmes statistiques

- le résultat est un équilibre entre faux positifs et faux négatifs- le transfert peut induire des erreurs ou des aberrations

travail humain, donc :

- lent !- également source d'erreur !

Annoter manuellement les gènes dans les régions d'intérêt

Pour faciliter l'annotation manuelle, utilisation de systèmes d'annotation contrôlés et "universels" (chaînes de traitement de prédictions automatiques, stockage des annotations, interfaces web graphiques de requête, d'exploration et de validation)

Annotation automatique

Méthode intégrative = ab-initio + approches comparativesPrédictions ab-initio des gènes couplées aux résultats de similarité avec les bases de données pour

améliorer significativement l'annotation (les méthodes intrinsèques et extrinsèques se complémentent)

Méthode intégrative d'annotation automatique

Evaluation de la pertinence de l’annotationExemple de l’évaluation de l’annotation sur des séquences de clones BAC Medicago

VP (vrais positifs) gènes prédits, réellement présents = bonne prédictionFP (faux positifs) gènes prédits, mais réellement non présents = sur prédictionFN (faux négatifs) gènes non prédits, mais normalement présents = sous prédictionVN (vrais négatifs) gènes non prédits, et réellement absents = bonne prédiction

Gene finder Sn N Sp N Sn E Sp E Sn G Sp G

GenScan+ 83.2 98.2 69.6 78 25.8 29

GenMarkHMM 89.9 94.8 73.1 76.6 32.4 31.6

FgenesH-At 95.1 93 85.3 81.4 47 46.5

FgenesH-Mt 97.6 92.1 85.1 80.7 52.8 47.8

EGN 93.7 95 84.7 85.4 55.5 50.5

EGN+FgenesH 97.8 94.2 90 86.9 63.2 56.4

EGN+FH+AA 98.6 93.9 92.4 88 69.2 61.8

EGN+FH+AA+

EST

98.2 99.9 94.4 94.6 80.2 79.4

la pertinence est mesurée par le rapport Sensibilité/spécificité : Sn/Sp

Sensibilité =

Spécificité =

http://eugene.toulouse.inra.fr/

Combiner d'annotation automatique

C

Eugene

FGenesHBlastx Genome Threader

SpliceMachine Eugene HMM

DNA sequence

blastptblastnInterproscanBBMHGreenphyl

blastptblastnInterproscanBBMHGreenphyl

blastxGThExonerate

STRUCTURAL

FUNCTIONAL

A B

blastxGthExonerate

Eugene: fonctionnement

EuGène : fichier graphique de sortie

séquence nucléotidique

gène (7 exons)

transposon

Eléments annotés

exemple de logiciel d'annotation : Artemis

http://www.sanger.ac.uk/resources/software/artemis/

Annotation manuelle

Dr Stéphanie Sidibe Bocs

http://southgreen.cirad.fr/

Plateforme d'annotation GNPAnnot au CIRAD

Annotateurintégration

vérification

croisement

analyse

Annotation automatique Annotation manuelle

Plateforme d'annotation GNPAnnot au CIRAD

http://www.gnpannot.org/

GBrowse : outil de visualisation de l'annotation

séquence

nom et taille de la séquence

Espèce, plateforme d'annotation utilisée

Gènes annotés

GBrowse : outil de visualisation de l'annotation

séquence

nom et taille de la séquence

Espèce, plateforme d'annotation utilisée

Eléments répétés annotés

A vous de jouer …

L’annot at ion des génomesCahier de vacances

½ journée