Post on 22-Dec-2014
description
Natalie Clairoux, M. Sc., M.S.I.Bibliothécaire
Hiver 2014
LES BASES DE DONNÉES DU
PAR OÙ COMMENCER?Le labyrinthe de bases de données en bio-informatique L’INTÉGRATION DES BASES DU NCBIPermet la navigation entre les bases
SOURCES DE DONNÉES BRUTESNucleotide, Protein, RefSeq, GEO…
RECHERCHE DE SÉQUENCES HOMOLOGUESBLAST, Blink, Related sequences
Natalie Clairoux Bases du NCBI I Hiver 2014
Bio-informatique in silico: citer ses sources
Source: Fritz-Laylin LK, Prochnik SE, Ginger ML, Dacks JB, Carpenter ML, Field MC, et al. The Genome of Naegleria gruberi Illuminates Early Eukaryotic Versatility. Cell. 2010;140(5):631-42.
Natalie Clairoux Bases du NCBI I Hiver 2014
Ressources en bio-informatique
Natalie Clairoux Bases du NCBI I Hiver 2014
Lien
Natalie Clairoux Bases du NCBI I Hiver 2014
Croissance exponentielle des données
Source: NLM
Traitement des données au NCBI: permet de trouver de l’information de qualité
Natalie Clairoux Bases du NCBI I Hiver 2014
Données brutes:•Nucleotide•Protein•GEO
Alignement de séquences par l’usager:•BLAST
Valeur ajoutée: • RefSeq• Entrez Gene• OMIM
Alignement déjà calculé au NCBI:• BLink• Related sequences
PAR OÙ COMMENCER?Le labyrinthe de bases de données en bio-informatique L’INTÉGRATION DES BASES DU NCBIPermet la navigation entre les bases
SOURCES DE DONNÉES BRUTESNucleotide, Protein, RefSeq, GEO…
RECHERCHE DE SÉQUENCES HOMOLOGUESBLAST, Blink, Related sequences
Natalie Clairoux Bases du NCBI I Hiver 2014
Natalie Clairoux Bases du NCBI I Hiver 2014
Bases de données du NCBI: page d’accueil
Obtenir de l’aide
Section générale : NCBI Educational Resources
Document de référence: The NCBI Handbook
Modes d’emploi: How-To's
Résumés: NCBI Fact Sheets
Vidéos sur YouTube: NCBINLM Channel
Votre bibliothécaire
Natalie Clairoux Bases du NCBI I Hiver 2014
Il y a beaucoup plus que des références d’articles dans PubMed…
Natalie Clairoux Bases du NCBI I Hiver 2014
Bases de données du NCBI: classification
Natalie Clairoux Bases du NCBI I Hiver 2014
Nucléotides
Génomes
Protéines
Structure
Taxonomie
Expression
Chimie
Littérature
TaxonomyBrowser
Classification qui gouverne toutes les autres bases au NCBI
Natalie Clairoux Bases du NCBI I Hiver 2014
Liens entreles bases
Natalie Clairoux Bases du NCBI I Hiver 2014
(Schéma date de 2008)
Les liens entre les bdd du NCBI
Hard links: liens directs entre deux notices provenant de deux bdd distinctes (figure pécédente).
• Exemples: lien entre l’article qui décrit une nouvelle séquence (PubMed) et sa notice dans GenBank (Nucleotide); lien entre la séquence d’une protéine (Protein) et une structure en 3D (Structure).
• Tous les liens directs possibles ne sont pas nécessairement présents.
Neighbouring links: liens calculés par ordinateur entre deux notices d’une même bdd.
• Critères de définition de la similarité varient d’une bdd à l’autre.
• Exemples: similarité de structure 3D entre protéines, déterminée avec VAST; Related sequences et Blink.
Natalie Clairoux Bases du NCBI I Hiver 2014
L’interface commune aux bases du NCBI
Fonctions: Limits, Advanced search, Clipboard• Exemple: recherche de séquences de gènes impliqués
dans le cancer du côlon dans Nucleotide.
LinkOut: liens vers des ressources externes au NCBI (près de 3000), pertinentes à la notice affichée. Ex.: Medline Plus, Flybase, REBASE…
MyNCBI: espace personnel de stockage et d’organisation de l’information repêchée.
• Possibilité de partage entre collègues.
• Garde en mémoire les actions des 6 derniers mois.
Natalie Clairoux Bases du NCBI I Hiver 2014
PAR OÙ COMMENCER?Le labyrinthe de bases de données en bio-informatique
L’INTÉGRATION DES BASES DU NCBIPermet la navigation entre les bases SOURCES DE DONNÉES BRUTESNucleotide, Protein, RefSeq, GEO…
RECHERCHE DE SÉQUENCES HOMOLOGUESBLAST, Blink, Related sequences
Natalie Clairoux Bases du NCBI I Hiver 2014
Séquences de nucléotides Nucleotide contient :
Séquences en nt (avec annotations bibliographiques et biologiques) provenant de GenBank (Etats-Unis), EMBL (Europe) et DDBJ (Japon).
Sources de données: soumissions individuelles par les auteurs et soumissions en lot (EST, GSS, centres de séquençage, brevets)
No. d’accession: identificateur unique; demeure constant même si des changements sont apportés à la notice (no. de version peut changer). Il y a aussi un no. d’identification au NCBI (GI) pour chaque version.
Description des composantes d’une noticeNatalie Clairoux Bases du NCBI I Hiver 2014
Exemple
Séquences de protéines
Protein contient: Traductions des séquences codantes de GenBank
(GenPept)
Séquences en aa (avec annotations bibliographiques et biologiques) provenant de TPA, SwissProt, PIR, PRF et PDB.
Il peut y avoir plus d’une protéine associée à une notice de Nucleotide.
Les symboles <> indiquent qu’une partie de la séquence est manquante.
Natalie Clairoux Bases du NCBI I Hiver 2014
Exemple
Séquences de référence (RefSeq)
Collection exhaustive, intégrée et non-redondante de séquences d’ADN, d’ARN et de protéines.
Référence pour l’identification et la caractérisation de gènes, de mutations et l’analyse de polymorphismes.
UNE notice par molécule chez les principaux organismes.
>42 millions de séquences, représentant >33,000 organismes.
Natalie Clairoux Bases du NCBI Hiver 2014
Je veux toutes les séquences BLAST, Nucleotide, Protein…
Je veux la meilleure séquence RefSeq
Nomenclature des nos d’accession des séquences de référence (RefSeq)
Natalie Clairoux Bases du NCBI Hiver 2014
Exemple
Données brutes d’expression GEO (Gene Expression Omnibus) contient des
données génomiques fonctionnelles générées par les technologies à puces (microarray) et de séquençage de nouvelle génération:
Données d’expression
Variation du nombre de copies de génome
Interactions génome-protéines
Études de profilage de méthylation
GEO Profile: mesures quantitatives d’expression pour un gène dans une expérience.
GEO Datasets: données complètes d’expériences.
Voir aussi: ArrayExpress (EBI)
Natalie Clairoux Bases du NCBI I Hiver 2014
Exemple
PAR OÙ COMMENCER?Le labyrinthe de bases de données en bio-informatique L’INTÉGRATION DES BASES DU NCBIPermet la navigation entre les bases
SOURCES DE DONNÉES BRUTESNucleotide, Protein, GEO…
RECHERCHE DE SÉQUENCES HOMOLOGUESBLAST, Blink, Related sequences
Natalie Clairoux Bases du NCBI I Hiver 2014
BLAST Basic Local Alignment Search Tool – algorithme
développé par Altschul et al. en 1990, révisé en 2007 (citez l’article si vous utilisez BLAST!)
Compare des séquences de nucléotides ou de protéines avec les séquences de bases de données et calcule la signification statistique des appariements obtenus.
Tient compte des substitutions possibles nt/aa qui ne modifient pas les fonctions du gène/protéine.
Utilisé (entre autres) pour: Identifier les membres d’une famille de gènes;
Déduire des relations fonctionnelles et évolutives entre des séquences.
Natalie Clairoux Bases du NCBI I Hiver 2014
BLAST - DéfinitionsEt.alors,.de.jour.en.jour,.j’apprends.des.choses.||| |||||||||||||||||||| | | ||||||||||||||Et.puis-,.de.jour.en.jour,.je.p--erds.des choses.
Alignement global: apparie deux séquences l’une avec l’autre. L’exemple illustre les non-appariements, les insertions et les délétions.
The.cat.in.the.hat.----meowed--.The.cot.in.the.hut.----stank---.The.bat.in.the.cavern.flew.fast.
Alignement multiple: appariement de plusieurs séquences.
Natalie Clairoux Bases du NCBI I Hiver 2014
BLAST – Fonctionnement 1. Séquence de la requête coupée en “mots” de 11nt ou 3
aa, sur 3 positions consécutives (puisque cadre de lecture inconnu)
2. Mots sont comparés avec les séquences des bases de données
3. Nucléotides: les paires (match) sont utilisées comme graines (seed) pour étendre l’alignement dans les deux directions. Si aucun “match” n’est trouvé sur 40 nt, le résultat est rejeté. Si un autre “match” est trouvé, assigne un pointage basé sur le degré de similarité.
4. Acides aminés: besoin d’une matrice de pointage pour tenir compte des substitutions fonctionnelles possibles. Par défaut: BLOSUM 62
5. Pointages compilés et normalisés.
6. Calcul de la probabilité que chaque résultat est aléatoire= e-value; plus petit le nombre, moins de chance que la similarité soit due au hasard.
Natalie Clairoux Bases du NCBI I Hiver 2014
BLAST – interprétation des résultats
La “probabilité” que l’appariement ne soit pas dû au hasard
Utiliser les e-values pour comparer les résultats d’une MÊME requête
Résultats sont en log2 (binaire) PAS log10 Le plus près de 0.0, le moins probable que ce soit dû au
hasard E-value de 1e-32 est considérée non-aléatoire Valeur >1.0 peut être aléatoire Valeur >10 est probablement aléatoire (mais attention si
les organismes sont très divergents, i.e. humain vs Tetrahymena)
Natalie Clairoux Bases du NCBI I Hiver 2014
Basic BLAST: 5 façons de chercher
Natalie Clairoux Bases du NCBI I Hiver 2014
Bases de données interrogées par BLAST
Natalie Clairoux Bases du NCBI I Hiver 2014
Étapes d’utilisation de BLAST
1. Entrer la séquence à rechercher Copier/coller, fichier texte, sélection de l’intervalle
Possibilité de comparer avec une autre séquence
2. Choisir l’ensemble de données à interroger Ensemble des bdd, sous-ensembles, ou organismes
précis
3. Sélectionner le programme (algorithme)
4. Ajuster les paramètres si désiré Sensibilité de la recherche, longueur de mot, etc.
5. Envoi de la requête au serveur BLAST
Natalie Clairoux Bases du NCBI I Hiver 2014
Exemple 1
Exemple 2
BLAST autres que Basic BLAST
Génomes complets (séquences connues vs séquences inconnues)
BLAST spécialisés: design d’amorces, recherche de mutations, immunoglobulines, alignement de séquences multiples, etc.
Disponibles sur la page d’accueil de BLAST
Natalie Clairoux Bases du NCBI I Hiver 2014
Formatage des résultats
Options d’alignement
Reformater les résultats originaux pour filtrer selon des organismes précis –PLUS EFFICACE
Natalie Clairoux Bases du NCBI I Hiver 2014
Natalie Clairoux Bases du NCBI I Hiver 2014
Ai-je vraiment besoin de faire un BLAST??
Recherche de séquences homologues
Related sequences et
BLink
Lien Related sequences
Liste de séquences similaires, déjà identifiées par le NCBI en utilisant le programme BLAST.
Lien disponible pour toutes les séquences de Nucleotide et Protein.
Conditions plus stringentes que les paramètres par défaut de l’outil = moins de résultats qu’un BLAST conventionnel, mais souvent plus pertinents.
Permet de sauver du temps!
Conseil : utiliser la séquence fonctionnelle en acides aminés (si applicable) plutôt que la séquence en nucléotides pour identifier des séquences homologues.
Natalie Clairoux Bases du NCBI I Hiver 2014
Exemple
Lien BLink (BLAST Link)
Comparaison de séquences de protéines, déjà effectuée par le NCBI avec BLAST, pour toutes les notices de Proteins.
Résultats non-redondants.
Présentation graphique des résultats, avec différentes options d’affichage et de tri.
Affiche plus de résultats que le BLAST par défaut (=100)
Natalie Clairoux Bases du NCBI I Hiver 2014
Exemple
Hum… à considérer!