Les données et les banques de données. Les données chromosome.

59
es données et les banques de donné

Transcript of Les données et les banques de données. Les données chromosome.

Page 1: Les données et les banques de données. Les données chromosome.

Les données et les banques de données

Page 2: Les données et les banques de données. Les données chromosome.

Les données

chromosome

Page 3: Les données et les banques de données. Les données chromosome.

Les données

chromosome gèneposition

Page 4: Les données et les banques de données. Les données chromosome.

Les données

ExonIntro

n

Codon start Codon stop

chromosome gèneposition

structureséquence

Motifs régulateurs

Page 5: Les données et les banques de données. Les données chromosome.

Les données

AAAAA

ExonIntro

n

ARN message

r

Codon start Codon stop

chromosome

QuantificationexpressionADNcESTs

séquence

gèneposition

structureséquence

Motifs régulateurs

ARN pré-message

r

Page 6: Les données et les banques de données. Les données chromosome.

Les données

AAAAA

ExonIntro

n

ARN pré-message

r

ARN message

r

Protéine

Codon start Codon stop

chromosome

séquence structure fonctions

QuantificationexpressionADNcESTs

séquence

gèneposition

structureséquence

Motifs régulateurs

Page 7: Les données et les banques de données. Les données chromosome.

Les banques de données

Il existe deux types de banques de données :

banques généralistes : collecte de données la plus exhaustive possible banques spécialisées : établies autour d’une thématique principale

La principale mission des banques est de rendre publiques les données issues du séquençage

Page 8: Les données et les banques de données. Les données chromosome.

Les banques de données généralistes

Les banques de séquences nucléiquesles séquences nucléiques peuvent être de plusieurs natures : ADN génomique, ADNc ...

EMBL pour European Moleculary Biology Library créée et financée en 1980 parl ’EMBO diffusée actuellement par l ’EBI (Angleterre)

GENBANK créée en 1982 par la société IntelliGenetics et diffusée actuellement par le NCBI (USA)

DDBJ pour DNA Data Bank of Japan Créée en 1986 par le NIG Japon

Echanges systématiques des données depuis 1987Mise en place d’un système de conventions communes

Page 9: Les données et les banques de données. Les données chromosome.
Page 10: Les données et les banques de données. Les données chromosome.
Page 11: Les données et les banques de données. Les données chromosome.
Page 12: Les données et les banques de données. Les données chromosome.
Page 13: Les données et les banques de données. Les données chromosome.

Les banques de séquences protéiques

une protéine peut être obtenue de deux manières différentes : 1. in silico : déduite de la séquence nucléique par simple traduction 2. isolée à partir de la cellule et séquencée

PIR-NBRF créée en 1984 par la NBRF

SWISSPROT créée en 1986 à l ’université de Genève maintenue depuis 1987 entre cette université et l ’EBI

Les banques de données généralistes (2)

Page 14: Les données et les banques de données. Les données chromosome.
Page 15: Les données et les banques de données. Les données chromosome.

Les défauts des banques de données

1. Principal défaut : le manque de vérification des données soumises

2. Hétérogénéité dans la nature de séquenceson trouve : ADN nucléaire, ADN mitochondrial, ADN chloroplastique,

ARN messager, ARN de transfert, chromosomes entiers…

3. Variabilité de l’état des connaissances sur les séquencestravail expérimental ou prédiction bioinformatique

4. Erreurs dans les séquences

5. Biais d’échantillonnagetoutes les espèces ne sont pas représentéestous les gènes d ’une espèces ne sont pas présentsil existe une redondance des données

Page 16: Les données et les banques de données. Les données chromosome.

Les banques spécialisées

Devant la croissance exponentielle et l’hétérogénéité des séquencesdes banques spécialisées se sont constituées autour de thématiquesbiologiques particulières.

Exemple : les motifs spécifiques d ’une séquence nucléique ou protéiquesites ayant une activité biologique ( TATAbox, site de fixation de l ’ATP)

Les bases de motifs nucléiques (éléments régulateurs …)TRANSFAC (1993), TFD (1994)

Les bases de motifs protéiques PROSITE (1993), BLOCK (1991)

Toutes ces données représentent un espace de connaissances de références à partir desquelles on tentera d ’identifier les séquences des gènes inconnus, issues du séquençage.

Page 17: Les données et les banques de données. Les données chromosome.
Page 18: Les données et les banques de données. Les données chromosome.
Page 19: Les données et les banques de données. Les données chromosome.
Page 20: Les données et les banques de données. Les données chromosome.
Page 21: Les données et les banques de données. Les données chromosome.

Les séquences sont stockées en général sous forme de fichiers texte qui peuvent être soit des fichiers personnels, soit des fichiers publicsaccessibles par des programmes interfaces (SRS, GCG, Acnuc).

Le format correspond à l'ensemble des règles (contraintes) de présentationauxquelles sont soumises la ou les séquences dans un fichier donné. Ainsi, le format permet donc :

> une mise en forme automatisée,

> le stockage homogène de l'information,

> le traitement informatique ultérieur de l'information.

Pour lire et traiter les séquences, les logiciels d'analyse autorisent un ou plusieurs formats des données.

Partie I du TD

Manipulation des données

Page 22: Les données et les banques de données. Les données chromosome.

Annotations des séquences

Page 23: Les données et les banques de données. Les données chromosome.

L’annotation

Séquences informations biologiques

Annotation structurale• localisation des gènes• structure des gènes• régions codantes• positions des motifs régulateurs

Annotation fonctionnelle• fonction biochimique•fonctions biologiques•régulation et intéractions•expression

Expérimentations humides

Prédictions in silico

Page 24: Les données et les banques de données. Les données chromosome.

Détection de gènes eucaryotes ab initio

La recherche de gène dans le génome d'espèce eucaryote est complexe :

1. les régions codantes sont morcelées par la présence d'introns

2. les régions codantes représentent moins de 5% du génome eucaryote.

La prédiction des gènes de génome eucaryote peut être appréhendée selon trois approches:

1. basée sur la similarité de séquence

2. ab initio

3. génomique comparative

Page 25: Les données et les banques de données. Les données chromosome.

Similarité de séquence Pour la recherche des gènes, elle peut être utilisée selon trois voies :

- comparaison directe de la séquence génomique avec des ESTs détermination des séquences codantes et des limites intron/exon

- comparaison des six cadres de lecture de la séquence contre des protéines.

- comparaison entre les différentes traductions de la séquence génomique et celles de banque de données génomiques et d’ADNc.

similarité de séquence : méthode puissante mais non infaillible

Page 26: Les données et les banques de données. Les données chromosome.

Comparaison de séquences

actcttctggtccccacagactcagagagaacccaccatggtgctgtctcctgccgacaagaccaacgtcaaggccgcctggggtaaggt cggcgcgcacgctggcgagtatggtgcggaggccctggagaggatgttcctgtccttccccaccaccaagacctacttcccgcacttcgacctgagccacggctctgcccaggttaagggccacggcaagaaggtggccgacgcgctgaccaacgccgtggcgcacgtggacgacatgcccaacgcgctgtccgccctgagcgacctgcacgcgcacaagcttcgggtggacccggtcaacttcaagctcctaagccactgcctgctggtgaccctggccgcccacctccccgccgagttcacccctgcggtgcacgcctccctggacaagttcctggcttctgtgagcaccgtgctgacctccaaataccgttaagctggagcctcggtggccatgcttcttgccccttgggcctccccccagcccctcctccccttcctgcacccgtacccccgtggtctttgaataaagtctgagtgggcggc

Séquence brute : à quoi elle correspond ?

1. Ressemblance avec d’autres séquences déjà connues?2. Trouver toutes les séquences d’une même famille3. Rechercher toutes les séquences qui contiennent un motif

donné

Page 27: Les données et les banques de données. Les données chromosome.

Dot Plot

Les dot plots sont utilisés :

- pour comparer visuellement deux séquences et détecter les régions ayant une forte similarité

1. Les deux séquences sont placées le long des axes d ’un graphique.

2. L ’intersection de chaque ligne et colonne est marquée d ’un point si la lettre est identique dans les deux séquences

Une suite de points sur la diagonale indique :

les régions de similarité entre les deux séquences.

Page 28: Les données et les banques de données. Les données chromosome.

Dot PlotAvec des séquences réelles, les motifs ne sont pas si évidents !

Page 29: Les données et les banques de données. Les données chromosome.

Alignement de séquences

Objectif : essayer de faire le maximum d ’appariements entre deux séquences- avoir le plus d’identité entre les séquences X et Y

Lorsque deux séquences sont comparées: on observe des substitutions

des insertions et des délétionsExemple 1:

S1 : TCAGACGATTG n=11S2 : TCGGAGCTG m = 9

alignement 1 identité x substitution y Indel z TCAG-ACG-ATTGTC-GGA-GC-T-G 7 0 6

alignement 2TCAGACGATTGTCGGAGCTG 4 5 2

alignement 3TCAG ACGATTGTC GGA GCTG 6 2 4

Page 30: Les données et les banques de données. Les données chromosome.

Quel est le meilleur alignement ?

Ce qu’on veut, c’est le maximum de bases identiques et le minimum de substitutions et indels

donc1. On va pénaliser les substitutions et les insertions/délétions (w)

2. On va rechercher un coût minimal pour l’alignement

coût = w substitution * y + w indel * z

pour les alignements précédents :si w substitution = 1 et w indel = 2

alignement 1 Coût = 1 *0 + 6*2 = 12

alignement 2Coût = 1*5 + 2*2 = 9 <- alignement qui a le moins de coût : c’ est le meilleur

alignement 3 Coût = 1*2 + 2*4 = 10

Page 31: Les données et les banques de données. Les données chromosome.

Recherche de similarité globale ou locale

Les finalités de ces deux types de recherche sont très différentes.

L'alignement global (Needelman & Wunch) :comparer des séquences homologues (apparentées) sur

toute leur longueur. L'alignement local (Smith & Waterman, BLAST, FASTA) est conçu

rechercher dans la séquence A des régions semblables à la séquence B

Page 32: Les données et les banques de données. Les données chromosome.

Les matrices de substitution

Pour aligner deux séquences, il faut évaluer leur similarité en attribuant un score grâce à des matrices de scores.

On distingue deux types de scores: - le score élémentaire qui est la valeur donnée directement dans la matrice- le score global qui est calculé comme la somme des scores élémentaires

Exemple:

ATGGCTAGAACT

TACGGCTTAGCTA

A T C GA 1 0 0 0T 0 1 0 0C 0 0 1 0G 0 0 0 1

Score élémentaire

Score global = 5

Page 33: Les données et les banques de données. Les données chromosome.

Exemples de matrices protéiques1. Les matrices PAM (Point Accepted Mutation) M. Dayhoff années 70

Obtenues par l’étude de 71 familles de protéines (1300 séquences)

Elles donnent les scores de similarité obtenus en fonction du nombre de mutation pour une séquence de longueur 100 aa.

Ex : PAM1 : 1 mutation entre deux séquences de 100 aa (~= 100 % identité) les deux séquences sont pratiquement identiques

PAM250 : 250 mutations (~= 20% identité)

2. Les matrices de type BLOSUM (BLOcks SUbstitution Matrix) obtenues à partir de motifs conservés entre des familles de protéinesles matrices BLOSUM plus récentes donnent en général de meilleurs résultats

3. Les matrices liées aux caractéristiques physico-chimiqueex: caractère hydrophile ou hydrophobe des protéines

BLOSUM 80 BLOSUM 62 BLOSUM45PAM 1 PAM 120 PAM 250

Peu différent très différent

Page 34: Les données et les banques de données. Les données chromosome.

Le logiciel BLAST

Basé sur des méthodes statistiques pour déterminer si la similarité observéeest significative biologiquement

L ’unité fondamentale de BLAST est le HSP (High-scoring Segment Pair)

HSP : région de similitude la plus longue possible entre deux séquences ayant un score supérieur ou égal à un score seuil

MSP (maximal-scoring Segment Pair) : meilleur score obtenu parmi tous lesHSPs que peuvent produire deux séquences

4 programmes distinct de comparaison d ’une séquence avec les bases de données:

BLASTN : séquence nucléique contre banque nucléiqueBLASTP : séquence protéique contre base protéiqueBLASTX : séquence nucléique traduite en 6 phases contre base protéiqueTBLASTX : séquence nucléique traduite en 6 phases contre base nucléique

traduite sur les 6 phases

Page 35: Les données et les banques de données. Les données chromosome.

L ’algorithme de BLAST

La stratégie de la recherche consiste à :

1. Rechercher tous les mots de longueur W dans la séquence W=3 pour les protéinesW=11 pour les acides nucléiques

2. Comparer ces mots avec les séquences de la banque afin d’identifier des régions similaires exactes.

3. Extension du segment trouvé dans les deux directions le long de chaque séquence à partir du mot commun pour améliorer le score de l ’alignement.

L ’extension s’arrête si:le score descend d ’une quantité x donnée par rapport à la valeur max

qu ’il avait atteintle score devient inférieur ou égale à 0la fin des deux séquences est atteinte

Page 36: Les données et les banques de données. Les données chromosome.

blast

Page 37: Les données et les banques de données. Les données chromosome.

Résultats de BLAST

La signification des alignements est évaluée statistiquement en fonction de : la séquence : longueur et composition

la banque de données : taille la matrice utilisée

Il appartient au biologiste de déterminer si ces alignements sont significatifs biologiquement ou non.

Page 38: Les données et les banques de données. Les données chromosome.
Page 39: Les données et les banques de données. Les données chromosome.
Page 40: Les données et les banques de données. Les données chromosome.
Page 41: Les données et les banques de données. Les données chromosome.
Page 42: Les données et les banques de données. Les données chromosome.
Page 43: Les données et les banques de données. Les données chromosome.
Page 44: Les données et les banques de données. Les données chromosome.

Options du logiciel BLAST

WORLDLENGTH (w) : W correspond au nb de lettres que contiennent les fragments initiaux

W=3 pour les protéines et 11 pour les acides nucléiques.Pour augmenter la sensibilité, on peut diminuer la valeur de W mais cela augmente le temps de calcul.

FILTER : Cette option, activée par défaut, permet de masquer certaines régions de faible complexité

MATRIX : Cette option autorise l ’utilisateur à modifier la matrice utilisée

EXPECT : Cette option permet de modifier le score seuil pour la recherche Seuls les alignements dont le score est inférieur à E seront reportés. Plus la valeur de E est faible, plus les résultats obtenus sont pertinents.

Page 45: Les données et les banques de données. Les données chromosome.

Détection in silico

Méthode basée sur des règles consensus concernant :

- la détection de signaux de transcription de traduction d’épissage …

Elle permet de détecter de nouveaux gènes, ne ressemblant à aucune séquence ou domaine connu.

Page 46: Les données et les banques de données. Les données chromosome.

Prédiction de gènes eucaryotes

Les éléments à rechercher sont les suivants:

1. la région promotrice :

TATA-box localisée 30 nt en amont du +1 de la transcription

motif de Kosac localisé juste en aval du codon ATG initiateur

ilots CpG , région riche en dinucléotide CG

2. le signal de polyadénilation : hexamère consensus AATAAA

localisé 20 à 30 nt en aval du codon stop

3. les introns

sites donneur, accepteur et le nucléotide de branchement

Page 47: Les données et les banques de données. Les données chromosome.

Jonctions intron/exon

Page 48: Les données et les banques de données. Les données chromosome.
Page 49: Les données et les banques de données. Les données chromosome.
Page 50: Les données et les banques de données. Les données chromosome.
Page 51: Les données et les banques de données. Les données chromosome.
Page 52: Les données et les banques de données. Les données chromosome.

Les erreurs : où et pourquoi ?

Extrémités des gènes sont difficiles à prédire

• pas ou peu de différence entre les régions intergéniques et les UTR• en 3 ’ signaux de polyadénylation sont parfois rares • en 5 ’ régions promotrices floues• présence d ’exons non codants et d ’introns dans les UTR

conséquences : fusion ou cassure des gènes prédits

Erreurs internes

• alignement épissé n’est pas 100% fiable(séquences de mauvaises qualité, vecteurs, polyA)

• les petits exons sont mal prédits d ’où erreur de structure• introns : généralement seuls les sites AG:GT sont recherchés • présence d ’événements alternatifs (épissage, initiation traduction)

Page 53: Les données et les banques de données. Les données chromosome.

Génomique comparative

Approche phylogénétique basée sur la comparaison de deux génomes.

=> conservation de séquences importantes biologiquement gènes,

régions régulatrices

Page 54: Les données et les banques de données. Les données chromosome.

Alignement multiple

consiste à aligner plusieurs séquences dans leur intégralité :

- caractériser des familles de protéines- identifier les régions conservées entre ces séquences- déterminer la séquence consensus de plusieurs séquences alignées

trouver, par exemple, un primer consensus pour la PCR …- constituer le point de départ d’une phylogénie

Inconvénient:=> L ’alignement multiple retourne toujours un résultat

Ce traitement n’a de sens que si les séquences à aligner sont supposées proches.

Page 55: Les données et les banques de données. Les données chromosome.

Logiciels d’alignementClustal X ou W (ftp-igbmc.u-strasbg.fr, ftp.embl-heidelberg.de, ftp.ebi.ac.uk)

EXEMPLE FICHIER FORMAT FASTA>CandidaAlbicansSPGRVNLIGDHIDYNFFPWANYFKCALGMKLTFDGNVPTGGG>CandidaParapsilosisSPGRVNLIGDHIDYNYFPWANYFKCGLGMNITFSGTVPTGGGL>YeastGAL1SPGRVNLIGEHIDYCDFSWSNYFKCGLGLQVFCEGDVPTGSGL

Page 56: Les données et les banques de données. Les données chromosome.

Autres types d’annotations possibles

Page 57: Les données et les banques de données. Les données chromosome.

Annotation des promoteurs

Motifs de fixation des facteurs de transcription sont souvent petits et dégénérés :beaucoup de faux positifs

Site d ’initiation de la transcription, n ’est jamais formellement identifié

Pas toujours d ’ilots CpG ou de boîte TATA

TATA-25 bp

+1 transcription

exon exonintron

Pol II

TGACGCA

CREB

CACGTG

C-myc

GGGCGG

sp1

Page 58: Les données et les banques de données. Les données chromosome.

Les gènes non codants

Que sont-ils?

Gènes produisant des ARN dont la fonction n'est pas de coder pour une protéine.

Ces gènes sont transcrits, mais pas traduits.

Les ARNt. Potentiellement 64 différents, en pratique une quarantaine dans les génomes microbiens.

Probablement beaucoup plus dans les génomes de mammifères.

Les ARNr: 5S, 16S, 23S pour les procaryotes, 5.5S, 18S et 28S pour les eucaryotes.

Les ARNsn (small nuclear RNA) éléments du spliceosome.

Les ARNsno , guides de méthylation.

Page 59: Les données et les banques de données. Les données chromosome.