Les principales bases de données en...

Post on 26-Jul-2020

0 views 0 download

Transcript of Les principales bases de données en...

142

Les principales bases de données en bioinformatique

143

Bases de données en bioinformatique

● Nombreuses bases de données en bioinformatique● Données issues d'expériences, de publications, d'analyses

faites à la main par des chercheurs● Données issues d'extractions ou de raisonnements

automatiques● La plupart de ces bases sont accessibles librement sur Internet

● Banque de données : base de données orientée vers la consultation et le recueil des données

● Chaque base propose un accès simplifié via un site oueb spécifique qui propose des fonctions de :

● Recherche● Visualisation des données● Lien vers d'autres bases

– => Les différentes bases sont inter-connectées entre elles

● Beaucoup de redondance d'une base à l'autre

144

Techniques de recherche

● Ces techniques fonctionnent dans les moteurs de recherche généraliste sur Internet (Google,...)● Mais aussi dans la plupart des moteurs de recherche de

bases de données bioinformatiques

● Guillemets : pour rechercher des mots à la suite les un des autres● Ex : sodium transporting

– Recherche sodium transporting ATPase– Et aussi sodium/potassium-transporting ATPase

● Ex : "sodium transporting"– Recherche sodium transporting ATPase– Mais exclut sodium/potassium-transporting ATPase

145

Résumé des différentes bases

Gène (ADN)

EMBL (séquences)

Protéine

EMBL (séquences)Uniprot (séquences)PDB (séquences)PDB (repliements)PROSITE (domaines)PFAM (domaines)

Transcript (ARNm)

Ensembl (séquences)EPD (promoteurs)Unigen (lieu d'expression)

Maladie génétique

OMIM (génétique)Orphanet (clinique)

Médicament

DrugBank (cibles)Thériaque (clinique)

Espèce

Tree of life

TranscriptionTraduction

Agitsur

Soigne

Cause

Article (bibliographie)

Pubmed

Dictionnaires

grand dictionnaire terminologique

146

Le grand dictionnaire terminologique

● Dictionnaire français-anglais

● Avec des traductions spécifique à différents domaines (biologie, médecine, aéronautique,...)

● Attention : dictionnaire français québécois !

● http://granddictionaire.com/

149

Pubmed / Medline

● http://www.ncbi.nlm.nih.gov/pubmed

● Medline : base de données bibliographiques en médecine / biologie

● Pubmed : interface permettant de consulter la base

● Lien vers le texte des articles disponibles en ligne

150

EMBL / Nucleotide / DDB

● Séquences de nucléotides (ADN) :● EMBL (European Molecular Biology Laboratory DNA database)

– http://www.ebi.ac.uk/

● Nucleotide (anciennement appelé GenBank)– http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide

● DNA Database of Japan

● Contiennent toutes les séquences de nucléotides librement disponibles et leurs traductions en protéines

● Les séquences d'ADN proviennent de séquençages● Les séquences de protéines proviennent de la traduction automatique

des séquences d'ADN correspondantes● Les 3 banques sont synchronisées => même contenu

● Cependant l'interface et les fonctions proposées par les 3 banques sont un peu différentes

● Recherche principalement par nom de gène ou de protéine, et ou nom d'espèce

EMBL

Type de résultats

Génome entier

Gène / ADN

Protéine

Pour rechercher un gène codant une protéine => coding sequenceRelease : dernière version publiéeUpdate : ajout depuis la dernière « release »

156

Format des séquences

● Il existe différent format pour les séquences● Le format FASTA est le plus utilisé

● Séquence d'ADN, d'ARN, de protéine,...

● Exemple de séquence protéique au format FASTA :

>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYILDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLLEFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQAQNQWLQDMTTHLILRSFKEFLQSSLRALRQM

Identifiant de la base de données(sp = SwissProt)

Identifiant de la séquence dans la base

Nom de la séquence et de l'espèce

157

EPD

● EPD : Eukaryotic Promoter Database :● http://www.epd.isb-sib.ch/● Base de données sur les séquences promoteurs :

séquence d'ADN déclenchant la transcription● Uniquement pour les eucaryotes● Données expérimentales

Liste des gènesutilisant cepromoteur

La transcription commence ici

160

Ensembl

● Ensembl :● http://www.ensembl.org● Base de données sur la transcription des

gènes– ARNm (Transcripts)– Introns, exons, séquences codantes,...

● Annotation manuelle en partant des séquences de gènes dans la base EMBL, notamment chez l'homme

Reste dans lenoyau (intron)

Quitte le noyaumais n'est pas traduit

Traduit enprotéine

Séquencecodante

Séquencenon-codante

Intron

Intron(épissagealternatif)

Domaines protéiques

Exon

Gène

Pourquoi les 4 derniers transcripts ne sont pas traduits en protéine ?

166

Unigen

● Unigen :● http://www.ncbi.nlm.nih.gov/UniGene● Base de données sur l'expression des gènes● Quels gènes sont exprimés dans quel organe, dans

quel maladie, à quel moment ?● Données issues de la recherche de marqueurs de

séquences exprimées (Expressed Sequence Tags, EST)– EST = séquence d'ADNc (= ARNm rétro-transcrit) courte

considérée comme caractéristique d'un ou plusieurs gènes– => données expérimentales mais assez peu fiables !

169

Uniprot

● Uniprot● http://www.uniprot.org/

● Les données proviennent de deux sources :● La base de données SwissProt, remplie manuellement

à partir de publications● La traduction automatique des séquences d'ADN issues

de la base EMBL– Il est plus facile de séquencer un gène qu'une protéine !

● Recherche principalement par nom de gène ou de protéine, et ou nom d'espèce

Uniprot

Uniprot

En bleu : source automatique non vérifiée par un expert=> méfiance !

En jaune : source revu manuellement par un expert

173

PDB

● PDB (BrookHaven Protein DataBank)● http://www.rcsb.org● Séquences et structures des protéines● Visualisation en 3D● Les données proviennent de cristallographie, de

RMN,...● Pour certaines protéines, plusieurs structures sont

disponibles– Structure de la protéine seule ou avec ligand– Structure de la protéine dans différents milieux– Structure obtenue avec des méthodes expérimentales

différentes

PDB :structure

secondaires

PDB : séquence des protéines

PDB : structuretertiaires

PDB : structuretertiaires

180

PROSITE● PROSITE :

● http://www.expasy.ch/prosite/● Base de données sur les domaines des protéines, les

familles protéiques et les fonctions biologiques associées● Un domaine = une région d'une protéine ayant une

fonction biologique propre, que l'on retrouve sur plusieurs protéines– Ex : plusieurs enzymes ont un même domaine avec une

fonction d'hydrolyse de l'ATP● Les motifs des domaines ont été déterminés de manière

manuelle● Recherche par nom de protéine, nom de domaine,

fonction biologique,...

PROSITE

Identifiants : PDOC... => domaine P... => protéine

PROSITE

PROSITE

PROSITEPermet d'accéder au motif du domaine

Recherche des « architectures »(= suite de domaines)dans les protéines de la baseSwiss Prot

Recherche toutes les protéinesAyant ce domaine dans Uniprot

Motif du domaine

Qualité du motif

Une ligne parrésidu dansle motif

Résidu n°1Résidu n°2Résidu n°3...

Acide aminéle plusfréquent enposition n°1

Liste des 22 acides aminés

Fréquence de l'acide aminé E en position n°3

PROSITE : architecture de protéines

● Protéine « Légo » !● Ici, des transporteurs actifs

Distance en nombre de résidus

Afficher les 33 autres protéines

Recherche du domaine dans Uniprot

Attention !Il s'agit de rechercher toutes les protéines dont la séquence contient le motif du domaine !Cela ne garantit pas à 100% que la protéine a la fonction biologique associée au domaine !

190

PFAM

● PFAM (Protein Family) :● http://pfam.sanger.ac.uk/● Base de données sur les familles de protéines et les

« clans » (= super familles)● Par rapport à PROSITE :

– Construit à partir des séquences de la base Uniprot● PFAM-A : annotation manuelle● PFAM-B : annotation automatique, à partir de recherche de

domaines dans les séquences, de similarités...

– Site oueb plus joli...– Mais moteur de recherche moins bon !

191

Recherche par séquence

● Problème : on a séquencé un gène,● Est-il est déjà connu ?● Sous quel nom ?● Existe-t-il des gènes de séquences proches déjà connu ?● => recherche par séquence

– > 230 000 000 de séquences connues

192

Recherche par séquence

● Problème du nombre de séquences connues● Problème des variations entre séquences

● Mutations, variations individuelles, erreurs de séquençage● => Utilisation de moteurs de recherche spécifiques

193

BLAST

● Le programme BLAST permet de faire des recherches par séquence

● Il est disponible sur Internet● http://blast.ncbi.nlm.nih.gov/Blast.cgi

● Plusieurs variantes :● Blast n : recherche d'une séquence nucléotidique

dans une banque d'ADN● Blast p : recherche d'une séquence protéique dans

une banque de protéine● ...

BLAST sur InternetSéquence à rechercher

Base de données où larecherche est effectuée

Rechercher seulementchez certaines espèces

Lancer le BLAST !

BLAST sur Internet

Nombre maximum deséquences affichées

Nombre d'erreur que l'onaccepte (E-value)

E-value = 10 => parmi les résultats, statistiquement enmoyenne 10 alignement de séquence seront dus au hasard

BLAST sur Internet

BLAST sur Internet

Séquence requête

14 séquencesretrouvéespar BLAST

La position des barres indique les alignements locauxLa couleur indique le score d'alignement

BLAST sur Internet

BLAST sur Internet

201

Gene Ontology

● Gene Ontology (GO) :

● http://www.geneontology.org/

● Ontologie :

● Plus qu'une base de données, une base de connaissance● Ensemble structuré des concepts et des relations entre

ces concepts dans un domaine de connaissance donné– Ensemble => On recherche une certaine exhaustivité

● pour avoir toutes les connaissances d'un domaine– Structuré => des traitements automatiques sont possibles

● Un cours peut contenir l'ensemble des connaissances d'un domaine mais il n'est pas structuré (d'un point de vue informatique) => pas de traitement automatique possible

202

Ontologie

● Exemple de raisonnement sur une ontologie sur les écosystèmes et les chaînes alimentaires

mangeHomme Brochet Gardon

mange

PolluantAnimal

est-un

PCB

est-un

Lac

habite habite

est-unest-un

Ville

habite

se con-centre dans

présent dans

L'homme risque-t-il d'être intoxiqué par les PCB (polychlorobiphényles)rejeté dans les eaux ?

203

Gene Ontology

● Gene Ontology (GO) :● http://www.geneontology.org/● Attention, ce n'est pas vraiment une ontologie !

– Seulement quelques types de relations :● Est-un● Partie-de● Régule

– Régule positivement– Régule négativement

– => pour avoir une « vraie » ontologie, il manque des relations : stocke, détruit,...

204

Gene Ontology

● Gene Ontology (GO) :

Composants de la celluleCellule

MembraneCytoplasmeNoyau

Nucléole...Vésicule sécrétoire

Processus biologiquesProcessus métaboliques

Métabolisme des lipidesMort cellulaire...

Fonctions moléculairesActivité cataboliqueActivité anti-oxydanteRégulateur de transcription...

Termes : Gènes :

BMP2 (poisson zèbre)

Insuline (homme)

... (...)

partie-de

est-un

annotation

Gene Ontology

Gene Ontology

Gene Ontology

Gene Ontology

Gene Ontology

est-un

partie de

Régulation

Gene Ontology

Liste des domaines protéiquesconcernant le transport du sodium

Mapping

214

KEGG

● KEGG : Kyoto Encyclopedia of Genes and Genomes :● http://www.genome.jp/kegg/● Ontologie

– Portant principalement sur les voies métaboliques– Mais aussi sur les gènes, les protéines, les maladies, les

médicaments– Très complexe !

219

Tree of life

● Tree of life :● http://tolweb.org● Base de données de taxonomie

– Classification des êtres vivants● Avec des photos !

Tree of life

221

OMIM (MIM)

● OMIM (Online Mendelian Inheritance in Man) :● http://www.ncbi.nlm.nih.gov/omim● Base de données sur les maladies génétiques chez

l'homme● Données issues d'articles, d'expériences,...● Recherche par nom de maladie ou nom de gène

OMIM : maladie

Lien vers les gènesou les portions dechromosomeresponsablesde la maladie

OMIM : gène

OMIM : variants allèliques

SNP= Single Nucleotide Polymorphisme= Mutation concernant un seul nucélotide (les plus fréquentes)

OMIM : SMP dans Ensembl

Un T remplace un C

226

OrphaNet

● OrphaNet :● http://www.orpha.net● Base de données sur les maladies orphelines

– Informations sur les gènes concernés (pour les maladies génétiques), similaire à OMIM

– Mais aussi des informations cliniques● Essais cliniques de nouveaux médicaments

● Base française !

228

DrugBank

● Base de données sur les médicaments● http://www.drugbank.ca● Information sur les cibles des médicaments● Attention : base américaine

– => médicaments américains !

DrugBank

231

Thériaque / Thésorimed

● Base de données sur les médicaments● http://www.theriaque.org● Accessible gratuitement, mais il faut s'inscrire !● Informations cliniques :

– Contre-indications, effets indésirables,...● Base française => médicaments français

233

Résumé des différentes bases

Gène (ADN)

EMBL (séquences)

Protéine

EMBL (séquences)Uniprot (séquences)PDB (séquences)PDB (repliements)PROSITE (domaines)PFAM (domaines)

Transcript (ARNm)

Ensembl (séquences)EPD (promoteurs)Unigen (lieu d'expression)

Maladie génétique

OMIM (génétique)Orphanet (clinique)

Médicament

DrugBank (cibles)Thériaque (clinique)

Espèce

Tree of life

TranscriptionTraduction

Agitsur

Soigne

Cause

Article (bibliographie)

Pubmed

Données expérimentalesDonnées calculéesMélange des deux

Fonction biologique

Gene OntologyPROSITE (domaines)PFAM (domaines)

234

Qualité des données● Il est très important de savoir évaluer la qualité des données

● Y compris pour les données que l'on récupère sur Internet !

● Y compris pour les logiciels !

● Quelques critères d'évaluation :

● Transparence :– Les informations « de base » (auteur, date,...) sont-elles

disponibles ?– Les sources sont-elles disponibles ?

● Auteur :– Qui est à l'origine des données ? – Quel est son statut ? A-t-il des intérêts particuliers ?

● Date et péremption :– Les données sont-elles récentes ? Sont-elles à jour ?

235

Qualité des données● Les logiciels : Ne les croyez pas systématiquement !!!

● Parfois des approximations : diminution de la qualité des résultats au profit de la rapidité

● Recherche d’une solution parmi un ensemble infini de possibilités● Ce n’est pas toujours la solution

la meilleure qui est trouvée !

● Les banques de données : Ne les croyez pas systématiquement !!!

● Les données se sont pas toujours fiables ou à jour.● Différence entre réalité mathématique et réalité biologique

– => cf TP1

● Les ordinateurs ne font pas de biologie, ils calculent vite !

236

Exemple pratique

● Question :● Quels sont les maladies génétiques pouvant être

causées chez l'homme par une déficience des transporteurs potassiques transmembranaires ?

● Comment répondre en combinant les différentes bases de données vues précédemment ?

Puis ontology

6046 gènes / protéines...

6046 gènes / protéines...

.../...

MIM = OMIM

259

Exemple pratique

● Nous avons combiné les informations de 4 bases entre elles

● Attention aux limites des différentes bases● Seules les connaissances connues sont présentes dans

les bases !– Il reste beaucoup d'inconnu en biologie

● Lorsqu'il y a beaucoup de gènes à rechercher :● Possibilité d'automatiser les recherches à l'aide de scripts

(programmation)

260

Pour l'examen

● Exercice comme ceux vu en cours et en TP

● Les documents sont autorisés● Pensez à les amener !

● Les calculatrices, les ordinateurs, les téléphones portables et les livres sont interdits