Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un...
-
Upload
astor-poirot -
Category
Documents
-
view
106 -
download
2
Transcript of Quelques mots sur la bioinfo Maude Pupin. Déroulement des 6 séances de TP : 5 séances de TP + un...
Quelques mots sur la bioinfo
Maude Pupin
Déroulement des 6 séances de TP :
5 séances de TP + un examen de TP sur l'ensemble. Banques de données (aujourd'hui) Comparaison de séquences Prédiction de gènes Annotation des protéines Reconstruction phylogénétique
Sujets de TP accessibles depuis : http://www.lifl.fr/~noe/enseignement/
Qu’est-ce que la bioinformatique ?
L’approche in silico de la biologie
Un outil indispensable aux biologistes
Un nouveau domaine de recherche
Trois activités principales : Acquisition et organisation des données biologiques
Conception de logiciels pour l’analyse, la comparaison et la
modélisation des données
Analyse des résultats produits par les logiciels
Les limites de la bioinformatique
Grands volumes de données à traiter Parfois diminution de la qualité des résultats au profit de la
rapidité
Recherche d’une solution parmi un ensemble infini de
possibilités Besoin d’optimiser les programmes pour arriver à proposer un
résultat dans un temps raisonnable
Ce n’est pas toujours la solution la meilleure qui est trouvée
Dépendant des connaissances biologiques
Un résultat de programme n'est pas une vérité !
Quelques liens utiles (en français)
Deambulum à Infobiogen http://www.infobiogen.fr/services/deambulum/fr/ Recueil de liens vers des sites de biologie et bioinformatique
Logiciels pour la biologie à l’Institut Pasteur http://bioweb.pasteur.fr/ De nombreux logiciels proposés et des liens vers des sites
NPSA au PBIL (Pôle BioInformatique Lyonnais) http://npsa-pbil.ibcp.fr/ L’étude des protéines et autres logiciels
Proteomics tools à Expasy http://www.expasy.org/tools/ Tout sur l’étude des protéines
Présentation des banques de données
Qu’est-ce qu’une banque de données ?
Ensemble de données relatives à un domaine,
organisées par traitement informatique, accessibles en
ligne et à distance
Souvent, les données sont stockées sous la forme d’un
fichier texte formaté (respectant une disposition
particulière)
Besoin de développer des logiciels spécifiques pour
interroger les données contenues dans ces banques
Les banques de données généralistes
Ces banques contiennent des données hétérogènes Collecte la plus exhaustive possible
Banques de séquences nucléiques
Banques de séquences protéiques
Banques de structure 3D de macromolécules
Banques d’articles scientifiques
Avantage : tout est consultable en une fois
Inconvénients : difficiles à maintenir, difficiles à interroger
Les banques de données spécialisées
Ces banques contiennent des données homogènes Collecte établie autour d’une thématique particulière
Avantages : facilité pour mettre à jour les données,
vérifier leur intégrité, offrir une interface adaptée, …
Inconvénients : ne cible pas toujours ce que l’on veut;
toutes les banques possibles n’existent pas
Exemples : banques spécialisées pour un génome,
banques de séquences d'immunologies, banques sur
des séquences validées, …
Les banques de séquences nucléiques
Origine des données : Séquençage d’ADN et d’ARN
Les données stockées : séquences + annotations Fragments de génomes
Un ou plusieurs gènes, un bout de gène, séquence intergénique, …
Génomes complets
ARNm, ARNt, ARNr, … (fragments ou entiers)
[ Note 1] : toutes les séquences (ADN ou ARN) sont
écrites avec des T
[ Note 2] : les séquences sont toujours orientées 5’ vers
3’.
Développement du séquençage de l’ADN
1977 : F. Sanger met au point la méthode de Sanger
pour établir le séquençage de l’ADN.
1980 : Création de la banque EMBL
1984 : Développement de la réaction de polymérisation
en chaîne (PCR) par Mullis.
1987 : Réalisation et commercialisation du 1er
séquenceur automatisé par la société Applied
Biosystems (Californie).
Banques nucléiques, les débuts
Apparition dans les années 1980 Toutes les séquences déterminées sont publiées dans un article
Les banques guettent les articles et en extraient les séquences
Croissance du nombre de séquences : Pas de publication systématique pour une séquence
Beaucoup de données à collecter
Gestion des données par des organismes spécialisés
Les séquences et leurs annotations sont soumises aux
banques par les laboratoires qui ont fait le séquençage
Banques nucléiques, le partage des données
Trois banques : EMBL (European Molecular Biology Laboratory), crée en 1982
GenBank (banque des Etats-Unis d’Amérique), crée en 1982
DDJ (DNA Databank of Japon), crée en 1986
Echange quotidien des données entre ces banques
depuis 1987 (1992 ?)
Répartition de la collecte des données Chaque banque collecte les données de son continent
Même format de données pour la partie « Feature » Formats différents pour le reste de l’entrée
Banques nucléiques, mises à jour de la banque
Une nouvelle version est disponible plusieurs fois par an Date et numéro de version (release)
Données figées à une date fixée (toutes les séquences
collectées jusque là)
Mise à disposition des « UpDates » Mise à jour quotidienne des données
Toutes les nouvelles séquences depuis la dernière version
Facilite le traitement des données Pas besoin de télécharger la banque entière tous les jours
Possibilité de faire des calculs longs
Banques nucléiques, dernière version
EMBL, version 85 du 30 novembre 2005 64,739,883 entrées, 116,106,677,726 bp
Dont 12,088,383 entrées (59,629,958,692 bp) sont issues de «
shutgun »
GenBank, version 150 de février 2006 54,584,635 entrées, 59,750,386,305 bp
DDBJ, version 62 de mai 2005 45.249.444 entrées, 49.158.155.283 bp
Banques nucléiques, croissance
0
10000
20000
30000
40000
50000
60000
70000
80000
90000
100000
82 84 86 88 90 92 94 96 98 00 02 04
Mill
iers
Nb entrées kb
020406080
100120
82 83 84 85 86 87 88 89 90 91 92
Séquençage de génomes
1995 : Séquençage de la 1ère bactérie, Haemophilus
influenzae (1,83 Mb) (Fleischmann).
1996 : Séquençage du 1er génome eucaryote,
Saccharomyces cerevisiae (12 Mb) (Dujon).
1998 : Séquençage du 1er organisme pluricellulaire,
Caenorhabditis elegans (100 Mb).
2001 : Annonce du décryptage presque complet du
génome humain (février).
Les projets de séquençage (source : GOLD)
Source : GOLD (http://www.genomesonline.org/)
298 génomes complets publiés 236 bactéries
39 eucaryotes
23 archaebactéries
746 génomes procaryotes en cours de séquençage 706 bactéries
38 archaebactéries
531 génomes eucaryotes en cours de séquençage
Banques nucléiques, format d’une entrée
3 parties : Chaque ligne commence par
un mot-clé Deux lettres pour EMBL
Maximum 12 lettres pour
Genbank et DDBJ
Fin d’une entrée : //
Description générale de la séquence
« Features »
Description des objets biologiques présents sur
la séquence
La séquence ctccggcagc ccgaggtcat cctgctagac tcagacctgg atgaacccat agacttgcgc 60
tcggtcaaga gccgcagcga ggccggggag ccgcccagct ccctccaggt gaagcccgag 120
acaccggcgt cggcggcggt ggcggtggcg gcggcagcgg cacccaccac gacggcggag 180
ID AF226511 standard; genomic DNA; PRO; 948 BP.AC AF226511;SV AF226511.1DT 15-MAR-2000 (Rel. 63, Created)DT 04-JAN-2006 (Rel. 86, Last updated, Version 2)DE Neisseria meningitidis strain 1000 membrane protein GNA1220 (gna1220) gene,DE complete cds.OS Neisseria meningitidisOC Bacteria; Proteobacteria; Betaproteobacteria; Neisseriales; Neisseriaceae;OC Neisseria.
RP 1-948RX DOI; 10.1126/science.287.5459.1816.RX PUBMED; 10710308.RA Pizza M., Scarlato V., Masignani V., Giuliani M.M., Arico' B., …RT "Identification of vaccine candidates … "RL Science 287(5459):1816-1820(2000).RL Submitted (19-JAN-2000) to the EMBL/GenBank/DDBJ databases.RL IRIS Immunobiological Research Institute in Siena, Chiron SpA, ViaRL Fiorentina, 1, Siena 53100, Italy
Description générale de la séquence
Banques nucléiques, les différentes lignes (1/2)
ID : nom de l’entrée , … Unique (propre à une entrée) Non permanent (peut changer au cours des versions)
AC : numéro d’accession Unique, plusieurs pour une même entrée (fusion d’entrées) Permanent (ne disparaît jamais de la banque)
SV : version de la séquence (Acc.version) DT : date d’incorporation dans la banque et de dernière
mise à jour DE : description du contenu de l’entrée
Banques nucléiques, la ligne ID
ID entryname dataclass; molecule; division; sequencelength BP.
Exemple: ID AB000263 standard; RNA; PRI; 368 BP.
Entryname : nom de l’entrée en général numéro d'accession
Dataclass : toujours le mot « standard »
Molecule : type de la molécule de l’entrée DNA, RNA, circular DNA, …
Division : essentiellement basé sur la taxonomie HUM (Human), MUS (Souris), MAM (Other Mammals), ...
Taille : en paires de bases
Banques nucléiques, les différentes lignes (2/2)
KW : liste de mots-clés (désuet) OS : organisme d’où provient la séquence (nom latin) OC : taxonomie (ou « artificial sequence »)
Exemple : Eukaryota; Planta; Phycophyta; Euglenophyceae.
OG : localisation de séquences non nucléaires Exemple : Mito, Plasmid …
RA, RT, RN, RC, RX, RP, RL : réf. bibliographiques DR : liaison avec d’autres banques de données FH, FT : caractéristiques d’une entrée (Features) SQ : séquence (termine par //)
FH Key Location/QualifiersFHFT source 1..948FT /db_xref="taxon:487"FT /mol_type="genomic DNA"FT /note="serogroup: B"FT /organism="Neisseria meningitidis"FT /strain="1000"FT gene 1..948FT /gene="gna1220"FT CDS 1..948FT /codon_start=1FT /db_xref="GOA:Q9JPH5"FT /db_xref="InterPro:IPR001107"FT /db_xref="InterPro:IPR001972"FT /db_xref="UniProtKB/TrEMBL:Q9JPH5"FT /note="similar to stomatin-like proteins; Genome-derivedFT Neisseria Antigen GNA1220"FT /transl_table=11FT /gene="gna1220"FT /product="membrane protein GNA1220"FT /protein_id="AAF42660.1"FT /translation="MEFFIILLVAVAVFGFKSFVVIPQQEVHVVERLGRFHRALTAGLNFT ILIPFIDRVAYRHSLKEIPLDVPSQVCITRDNTQLTVDGIIYFQVTDPKLASYGSSNYIFT MAITQLAQTTLRSVIGRMELDKTFEERDEINSTVVSALDEAAGAWGVKVLRYEIKDLVPFT PQEILRSMQAQITAEREKRARIAESEGRKIEQINLASGQREAEIQQSEGEAQAAVNASNFT AEKIARINRAKGEAESLRLVAEANAEAIRQIAAALQTQGGADAVNLKIAEQYVAAFNNLFT AKESNTLIMPANVADIGSLISAGMKIIDSSKTAK"XX
« Features »
Description des objets biologiques présents sur la séquence
Banques nucléiques, Features
But : Mettre à disposition un vocabulaire étendu pour
décrire les caractéristiques biologiques des séquences.
Format :
Key : indique un groupe fonctionnel Vocabulaire contrôlé, hiérarchique
Location : instructions pour trouver l’objet sur la
séquence de l’entrée
Qualifiers : informations complémentaires /qualifier=‘‘commentaires libres’’
Banques nucléiques, Key (1/2)
Mot-clé le plus général : misc_feature
Changements dans la séquence : misc_difference, ...
Régions répétées : repeat_region, ...
Régions des Ig : immunoglobulin_related, ...
Structures secondaires : misc_structure stem_loop
D-loop
Régions impliquées dans la recombinaison :
misc_recomb, ...
Banques nucléiques, Key (2/2)
gene
misc_signal
promoter
CAAT_signal
TATA_signal
-35_signal
-10_signal
GC_signal
RBS
polyA_signal
enhancer
attenuator
terminator
misc_RNA
prim_transcript
precursor_RNA
mRNA
5'clip
3'clip
5'UTR
3'UTR
exon
CDS
intron
polyA_site
http://www.ebi.ac.uk/embl/WetFeat/
Banques nucléiques, Location (1/2)
467 base seule
340..565 séquence comprise entre les bornes (incluses)
<1..888 commence avant le premier nt de l'entrée
<234..888 début réel inconnu, avant 234
234..>888 finit après la position 888.
(228.234)..888 position réelle inconnue, entre 228 et 234
145^146 situé entre deux nt adjacents
Banques nucléiques, Location (2/2)
complement(340..565) séquence complémentaire
inversée de celle de l'entrée Intervalle toujours donné avec la borne la plus petite en premier
Indique que l’objet est sur l’autre brin
join(12..78,134..202) séquence unique composée des
fragments indiqués concaténés Ex : ARNm mature constitué de plusieurs exons
Banques nucléiques, Qualifiers
Vocabulaire contrôlé entre « / » et « = » puis texte libre Le vocabulaire dépend du Key au quel le Qualifier se réfère
Nom de gène /gene= ou /name=
Fonction de la protéine codée par le gène /product=
Origine de l’annotation /evidence=
Texte libre /note=
Banques nucléiques, mise à jour des données
Evolution des entrées Erreurs de séquences
Changements dans les annotations
Pb : Seuls les auteurs d’une entrées peuvent la corriger ! Faible taux de mise à jour
Création d’une nouvelle banque : TPA Third Party Annotation
Stockage à part de la mise à jour des entrées
Banques nucléiques, inconvénients
Difficulté de mise à jour des données Version plus récente d’une séquence ou d’une annotation dans
d’autres banques (ex : banques dédiées à un génome complet)
Forte redondance Un même fragment de séquence présent dans plusieurs entrées
Annotations peu normalisées Difficulté de recherche d’une information précise
Annotations peu précises Peu de descriptions sur les gènes et leur produit
Erreurs dans les annotations
Création de banques plus spécialisées, RefSeq
Gérée au NCBI Séquences nucléiques et protéiques
Liens explicites entre les gènes et leurs produits
Chaque entrée représente une unique molécule d’un organisme particulier Pas de redondance
Mise à jour manuelle par le personnel du NCBI Validation des données et annotations normalisées Statut de l’entrée indiqué sur chaque entrée (prédit, validé, …)
Information sur les variants de transcrits
Création de banques plus spécialisées, UniGene
Gérée au NCBI
Regroupe les séquences nucléiques Comparaison des séquences de GenBank entre elles
Création de groupes de séq similaires basés sur les gènes
Une entrée : les séquences dérivées d’un même gène Les différents ARNm connus, les EST, …
Informations sur le gène, la protéine, l’expression
Les banques de séquences protéiques
Origine des données Traduction de séquences d’ADN
Séquençage de protéines Rare car long et coûteux
Protéines dont la structure 3D est connue
Les données stockées : séquences + annotations Protéines entières
Fragments de protéines
Banques de séquences protéiques, les débuts
1965 : Atlas of Protein Sequences, Margaret Dayhoff 50 entrées
Version papier jusqu’en 78, puis version électronique
1984 : création de PIR-NBRF (Protein Information Resource -
National Biomedical Research Foundation) Collaboration avec MIPS (Allemagne) et JIPID (Japon)
1986 : création de SwissProt Collaboration entre SIB (Swiss Institute of Bioinformatics ) et EBI
Fin 2003 : création de UniProt (Universal Protein Resource) Mise en commun des informations de PIR et SwissProt/TrEMBL
« entrepôt » central de séquences et fonctions protéiques
PIR, ses deux bases de données
PSD : Protein Sequence Database Séquences protéiques avec annotation fonctionnelle
«the most comprehensive and expertly annotated protein
sequence database in the public domain »
PIR-NREF : Non redondant protein sequences Pas plus d’une entrée pour une protéine (comparaison de toutes
les séquences entre elles)
Données : PIR-PSD, SwissProt, TrEMBL, RefSeq, GenPept,
PDB
SwissProt, ses deux banques
SwissProt Données corrigées et validées par des experts Haut niveau d’annotation
Description de la fonction (références associées) Localisation des domaines fonctionnels Modifications post-traductionnelles Existence de variants, …
Redondance minimale Nombreux liens vers d’autres banques (60 BD)
TrEMBL Entrées supplémentaires à SwissProt (pas encore annotées) Traduction automatique de l’EMBL
SwissProt/TrEMBL, croissance
nov.-86
sept.-
nov.-88
oct.-89
nov.-90
nov.-91
déc.-92
oct.-93
oct.-94
nov.-95
oct.-96
nov.-97
déc.-98
juil.-99
mai-00
oct.-01
janv.-
oct.-03
juil.-04
01/09/
0
250000
500000
750000
1000000
1250000
1500000
1750000
2000000
SwissProt TrEMBL
SwissProt/TrEMBL, format d’une entrée
Format basé sur celui de l’EMBL Mot-clé de 2 lettres au début de chaque ligne
Les mêmes mots-clés sont utilisés
Format différent pour les Features
Mots-clés supplémentaires : GN : les différents noms du gène qui code pour la protéine (OR)
les différents gènes qui codent pour la même protéine (AND)
OX : références croisées vers les banques taxonomiques
CC : commentaires, lignes très documentées dans SwissProt
KW : mots-clés issus d’un distionnaire
SwissProt/TrEMBL, lignes CC
Informations découpées en blocs pour plus de lisibilitéCC -!- TOPIC: First line of a comment block;
CC second and subsequent lines of a comment block.
De nombreux sujets sont abordés FUNCTION : description générale de la fonction de la protéine
CATALYTIC ACTIVITY : description des réactions catalysées
par les enzymes
DEVELOPMENTAL STAGE : description du stade spécifique
auquel la protéine est exprimée
SUBUNIT : complexes dont fait partie la protéine (+ partenaires)
…
SwissProt/TrEMBL, lignes FT
Régions ou sites d’intérêt dans la séquence Modifications post-traductionnelles Sites de fixation Sites actifs d’enzymes Structures secondaire Changements de séquence (y compris les variants)
Format en colonne (nb caractères) 1-2 : FT 6-13 : Key (mot-clé, vocabulaire contrôlé) 15-20 22-27 : début et fin de l’objet 35-75 : description (éventuellement sur plusieurs lignes)
UniProt, les différentes banques
UniProt : UniProt Knowledgebase Deux parties : entrées annotées manuellement (SwissProt) et
entrées annotées de façon automatique (TrEMBL) Plus d’informations que dans les banques d’origine
UniRef : UniProt Non-redundant Reference database UniRef100 : regroupement des séquences identiques et de leurs
fragments provenant d’un même organisme UniRef90 : entrées de UniRef100 avec plus de 90% d’identité UniRef50 : idem pour 50% d’identitié
UniParc : UniProt Archive UniProt + d’autres banques (PDB, RefSeq, FlyBase, brevets, …)
Banques protéiques, dernières versions
PIR-PSD : n° 80, 31/12/05, 283.416 entrées
PIR-NREF : n° 1.77, 19/09/05, 2.577.815 entrées. PIR (283.009 entrées)
GenPept (2.570.458 entrées)
RefSeq : 1.266.570 entrées
PDB : 32.545 entrées
SwissProt : n° 48, 13/09/05, 194.317 entrées
TrEMBL : n° 31, 13/09/05: 2.105.517 entrées
UniProt : n° 6.0, 13/09/05: 2.299.834 entrées
UniRef100 : 2.939.066, UniRef90 : 1.730.689, UniRef50 : 907.983
UniParc : 5.025.587
Une Banque bibliographique, PubMed
Contient Journaux concernant la biologie et la médecine
Articles indexés par des experts à l’aide des termes MeSH
Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de
molécules chimiques Hiérarchisé
Dictionnaire de synonymes
19.000 termes médicaux, 103.500 termes chimiques
Subheadings : sous-titres qui décrivent un aspect particulier des
termes MeSH
Mis à jour régulièrement
Exemple de terme MeSH
Systèmes d’interrogation de banques de données
Interrogation d’une banque
But : Obtenir des informations nouvelles et pertinentes
Aide à la mise au point d’expériences
Validation des résultats d’une expérience
Contraintes pour un systèmes d’interrogation Obtention de données pertinentes (pas trop de résultats, mais
tous ceux relatifs à notre problématique)
Simplicité d’utilisation (syntaxe d’interrogation intuitive)
Réponse rapide
Possibilité d’analyse des résultats (couplage à des outils)
Entrez, le système d’interrogation du NCBI
Interface propriétaire (ne peut être
installée par autrui)
Opérateurs en majuscule AND, OR, NOT
Nom du champ entre crochets homo sapiens [organism]
Aide dans « Preview/Index »
Historique (lien « History »)
Ajout de limites (lien « Limits »)
Sauvegarde, format Boutons « Display », « send to »
Menus déroulants associés
Entrez, liens entre banques et entrées
PubMed
OMIM
Genome
Nucleotide
Protein
Structure
Taxonomy
Similarité (BLAST)
termes MeSH communs
Liens entre banques
Accès aux liens entre banques à l’aide du menu associé au bouton « Display »
SRS, le système d’interrogation de l’EBI (TIGR)
Système libre, de nombreux
miroirs existent
Onglet « Libary » Choix de la ou des banques
interrogées
Onglet « Query » Lancement du formulaire
Onglet « Results » Historique des requêtes
Onglet « Views » Création de format d’affichage
Interrogation via SRS
Opérateurs & (et), | (ou), ! (non)
Nom des champ dans
des menus déroulants
Sauvegarde, format Bouton « Save »
Bouton « Rerun query »
Options associées
Analyse bioinformatique
des entrées Bouton « Launch »
SRS, le découpage en sous-entrées
Sous-entrée : partie extraite d’une entrée Annotation et séquence associée (fragment séquence parent)
Utile dans le cas de champs répétés dans une entrée EMBL : références, « features », compteurs UniProt : ref, commentaires, liens, « features », compteurs
Interrogeables facilement via le formulaire étendu Liste de valeurs quand vocabulaire contrôlé
Sous-entrées « compteurs » Nombre d’apparitions de certains champs dans les entrées
Non disponible dans Entrez
SRS, liens entre banques
Construits à partir des informations présentent dans les
entrées Les liens sont bidirectionnels
Les liens sont propagés : A lié à B et B lié à C alors A lié à C
Deux types de liens Dans une entrée sous la forme d’hyperliens (HTML)
Par requête à l’aide du bouton « Link », à partir d’une liste
d’entrées.
Pas de liens entre entrées d’une même banque
Quelques formats de données biologiques
Format des banques, exemples : Séquences ADN/ARN : EMBL ; GenBank et DDBJ
Séquences protéiques : SwissProt et TrEMBL ; PIR ; …
Formats lus par la plupart des outils en bioinformatique FASTA
Séquence brute (« raw sequence »)
Conversion de formats Lors de la consultation des banques
Le programme ReadSeq (n’importe quel format en entrée, choix
du format de sortie)
Le format FASTA ( et Multi-FASTA)
Une ligne de commentaires précédé de « > » La séquence brute (pas d’espace, ni de nombre)
>Human Polycomb 2 homolog (hPc2) mRNA, partial cds
ctccggcagcccgaggtcatcctgctagactcagacctggatgaacccat
agacttgcgctcggtcaagagccgcagcgaggccggggagccgcccagct
ccctccaggtgaagcccgagacaccggcgtcggcggcggtggcggtggcg
gcggcagcggcacccaccacgacggcggagaagcctccagccgaggccca
ggacgaacctgcagagtcgctgagcgagttcaagcccttctttgggaata
taattatcaccgacgtcaccgcgaactgcctcaccgttactttcaaggag
tacgtgacggtg