Banques et bases de données de séquences biologiquesBanques et bases de données de séquences...
Transcript of Banques et bases de données de séquences biologiquesBanques et bases de données de séquences...
Banques et bases de donnéesde séquences biologiques
OBI3
Enseignement Supérieur Public
20 avril 2018
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 1 / 44
Sommaire
1 Banques généralistesDescription des banquesAlimenter les banques de donnéesRechercher une ou plusieurs entrée(s)Points forts et limites des banques
2 Bases de données relationnellesDé�nitionPossibilités des BdD
3 Conclusion
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 2 / 44
Banques généralistes
Sommaire
1 Banques généralistesDescription des banquesAlimenter les banques de donnéesRechercher une ou plusieurs entrée(s)Points forts et limites des banques
2 Bases de données relationnellesDé�nitionPossibilités des BdD
3 Conclusion
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 3 / 44
Banques généralistes
Bref historique1965 Première compilation de protéines : Atlas of Protein Sequences (Dayho�)1972 Premier véritable séquençage d'un génome, le bactériophage MS21977 F. Sanger met au point la méthode de séquençage de l'ADN par ddNTP
1980Création de la banque EMBL. Les banques guettent les articles et enextraient les séquences
1981 Premières analyses bioinformatiques de masse : usage des codons1984 Développement de la réaction de polymérisation en chaîne (PCR)1984 Création de PIR = NBRF (USA) + MIPS (Allemagne) + JIPID (Japon)1986 Création de SwissProt = SIB + EBI1987 Réalisation et commercialisation du 1er séquenceur automatisé (Applied)1987 Invention des chromosomes arti�ciels de levure (YAC)1995 Séquençage de la 1e bactérie, Haemophilus in�uenzae (1,83 Mb)1996 Séquençage du 1er génome eucaryote, Saccharomyces cerevisiae (12 Mb)1998 Séquençage du 1er organisme pluricellulaire, C. elegans (100 Mb)2001 Annonce du décryptage (presque) complet du génome humain2003 Création d'UniProt = PIR + SwissProt/TrEMBL2005 NGS (454, Solexa, solid)2005 Nanopore
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 4 / 44
Banques généralistes Description
Banques généralistes de séquences nucléotidiques
Banque Maintenue par / URL Lieu
European Molecular Biology LaboratoryEBI (UK)
http://www.ebi.ac.uk/embl
National Center for Biotechnology InformationNIH (USA)
http://www.ncbi.nlm.nih.gov/nucleotide
Center for Information BiologyNIG (Japon)
http://www.ddbj.nig.ac.jp
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 5 / 44
Banques généralistes Description
Echange quotidien
http://www.insdc.org
Nakamura et al. (2013) Nucleic Acids Res D21-4
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 6 / 44
Banques généralistes Description
EMBL Avril 2018
source : http://www.ebi.ac.uk/embl/Services/DBStats/
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 7 / 44
Banques généralistes Description
Biais de représentation des taxons
d'après http://www.ebi.ac.uk/embl/Documentation/Release_notes/current/relnotes.html
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 8 / 44
Banques généralistes Description
Banques généralistes de séquences protéiques
Banque Maintenue par / URL Lieu
EMBL + Swiss Inst. Bioinfo. + Prot. Info. Res.EBI (UK)SIB (Swiss)PIR (USA)
http://www.uniprot.org
National Center for Biotechnology InformationNIH (USA)
http://www.ncbi.nlm.nih.gov/protein
Center for Information BiologyNIG (Japon)
http://www.ddbj.nig.ac.jp
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 9 / 44
Banques généralistes Alimentation
Qui alimente les banques primaires ?
Les auteurs :
Equipes de recherche
Centres de séquençage
Consortiums d'annotation
Principes :
Chaque auteur est responsable de sa contribution
Lui seul peut la modi�er
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 10 / 44
Banques généralistes Alimentation
Pour faire partager son savoir au monde entier
EMBL :
DDBJ :
Les 3 banques :
Exemples :
http://www.ebi.ac.uk/embl/Submission http://www.ebi.ac.uk/Sequin
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 11 / 44
Banques généralistes Alimentation
Des nucléotides aux protéines
Données mars 2018 http://www.ebi.ac.uk/uniprot/TrEMBLstats
et http://www.expasy.org/sprot/relnotes/relstat.html
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 12 / 44
Banques généralistes Recherche
Une banque est un (long) texteExemple : une entrée EMBL
ID AJ416110; SV 2; linear; genomic DNA; STD; PRO; 3231 BP.
AC AJ416110;
DT 21-OCT-2001 (Rel. 69, Created)
DT 15-APR-2005 (Rel. 83, Last updated, Version 6)
DE Psychrobacter sp. TAD1 pyrB gene for aspartate transcarbamylase and pyrC'
DE gene for pseudo-dihydroorotase
KW aspartate transcarbamylase; pseudo-dihydroorotase; pyrB gene; pyrC' gene.
OS Psychrobacter sp. TAD1
OC Bacteria; Proteobacteria; Gammaproteobacteria; Pseudomonadales;
OC Moraxellaceae; Psychrobacter.
RN [1]
RC revised by [3]
RA Sun K.;
RT ;
RL Submitted (05-OCT-2001) to the EMBL/GenBank/DDBJ databases.
RL Sun K., Biochimie, CNRS-UMR 7631, 96 Boulevard Raspail, Paris, 75006,
RL FRANCE.
RN [2]
RA Sun K., Hommais F., Bertin P., Pothier J., di Prisco G., Danchin A.,
RA Herve G.;
RT "The Aspartate Transcarbamylase from the psychrophilic TAD1 psychrobacter
RT from Antarctica";
RL J. Bacteriol. 0:0-0(2003).
RN [3]
RP 1-3231
RA Sun K.;
RT ;
RL Submitted (16-FEB-2004) to the EMBL/GenBank/DDBJ databases.
RL Sun K., Biochimie, CNRS-UMR 7631, 96 Boulevard Raspail, Paris, 75006,
RL FRANCE.
(à suivre)
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 13 / 44
Banques généralistes Recherche
Une banque est un (long) texteSuite de l'entrée EMBL AJ416110
FH Key Location/Qualifiers
FH
FT source 1..3231
FT /organism="Psychrobacter sp. TAD1"
FT /strain="TAD1"
FT /mol_type="genomic DNA"
FT /note="antarctic psycrotrophic bacterial strain"
FT /db_xref="taxon:81861"
FT -35_signal 430..436
FT /gene="pyrB"
FT TATA_signal 457..468
FT /gene="pyrB"
FT CDS 489..1487
FT /transl_table=11
FT /gene="pyrB"
FT /product="aspartate transcarbamylase"
FT /function="first enzyme of the pyrimidine pathway"
FT /EC_number="2.1.3.2"
FT /db_xref="GOA:Q934T0"
FT /db_xref="InterPro:IPR002082"
FT /db_xref="InterPro:IPR006130"
FT /db_xref="InterPro:IPR006131"
FT /db_xref="InterPro:IPR006132"
FT /db_xref="UniProtKB/Swiss-Prot:Q934T0"
FT /protein_id="CAD01098.2"
FT /translation="MPNTHDTKNNVSPSEYAKFDPSTIHQRLNTSLSRPQLNSDGSIRH
FT FLGVEGLNKAQLQAIIAKALFFEPSTRTRTTFEVAEKRLGANVLNLDIASSSAKKGESL
FT RDTLWNLQAMTADIFVVRHSASGAAHFMATEVTPDIAIINGGDGWHAHPTQGMLDMLTI
FT HREAPRPFEELSVAIIGDVKHSRVARSDISALQTLGVKDIRVIAPRTLLPKGIERFGVQ
FT VYEDMNSCVRDCDVIMGLRIQNERIGSPLLASSSEYYKQYGITPERVALAKPDALIMHP
FT GPMNRGVEIASSVADGPQSVILKQVSNGVAIRMAVLALTMEGQRAHQANRG"
(à suivre)
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 14 / 44
Banques généralistes Recherche
Une banque est un (long) texte
Suite de l'entrée EMBL AJ416110
FT -35_signal 1539..1542
FT /gene="pyrC'"
FT /note="putative"
FT -10_signal 1571..1578
FT /gene="pyrC'"
FT /note="putative"
FT CDS 1593..2804
FT /transl_table=11
FT /gene="pyrC'"
FT /product="pseudo-dihydroorotase"
FT /function="essential to maintain the structure of the
FT ATCase"
FT /db_xref="GOA:Q710V0"
FT /db_xref="InterPro:IPR011059"
FT /db_xref="UniProtKB/TrEMBL:Q710V0"
FT /protein_id="CAD01099.1"
FT /translation="MIDNNNTTAQIVDLLPTAFSQSLPSSVSEQLTNNASDHQMWLLPP
FT LVDLCARLREPGLQQHGTLASEGSAALANGFLHVVIPPDTNPILENGSLLKGLRERALE
FT DGGIHLHILGALTAGLKGERPSNIAGLKKGGCIAVSNARRPFENDLVQLRTLEYAATFG
FT MKVFFYPDEPSLSGDGVAHEGYIASYHGLQGIPWIAETVALSTQLLMVEETGIAAHFSQ
FT LSCKSSVELMRWAKDKGLPVTCDVAMHQLHLTDDNLEGFNAMSYVLPPLRSNTDQQALR
FT RGLKDGTIDAICSHHEPLNVTAKKAPFAESIPGISNFDTFMALACQLVRDEVLTVEQLV
FT AKICLNPAKIAGIEDQYLETGGAILVDPDMKWQVTAETMLSNGKNTPFFGQQLQGRVVE
FT TFFG"
FT terminator 2902..2910
FT /gene="pyrC'"
XX
(à suivre)
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 15 / 44
Banques généralistes Recherche
Une banque est un (long) texte
SQ Sequence 3231 BP; 878 A; 669 C; 746 G; 938 T; 0 other;
ccgagctcgg atccactagt aacggccgcc agtgtgctgg aaagcattta ataggatgga 60
tagttagcgg ccttaaaata gctatctctc tctattaatg tgaccctttg agcgtttata 120
aacaataaga tgatattctc tacaacaact attttgattg acgaaaatct atcgcatttt 180
tatcgtcatt cgctaattaa tgagccgtct taatgtcgtt ggcgctgata aattttggta 240
caaccgtcat taaaagagtt gataatagcc ttaagttgta acattcatta tcagtagtca 300
ttagcattat aaagttattg cggtaaagtg tagcaaataa gcgacaaaat gtccttattg 360
ctagacggtt aactaagtgt tttaagcaaa ataccaatga ttataagtat aataacctta 420
gctgtaatat tcagtttgaa tcagtaaatt caatcctaaa tataaaccta tcataaagac 480
ttgccattat gccaaatact cacgatacca agaataacgt ttccccttct gaatacgcca 540
agtttgatcc tagtactatt catcaaagac tcaatacttc gcttagtcga ccacaattaa 600
[...]
ttgctggtat tgaagatcaa tatctagaaa ctggcggagc tatattagta gaccctgata 2700
tgaaatggca agtaactgct gaaactatgc tgtctaacgg taaaaacacc cctttcttcg 2760
gccaacagtt acaaggtcgt gtcgtggaga cattctttgg ctaatctatc taatgccaag 2820
ctgcctataa aggtgagcgc agctagtcaa tctagtgagt cgatcaaggc agtagctatc 2880
tatgagatag tcaaaggtat tggcgcgctg ctaggagcag ctgctttatg gctatggcac 2940
aaagatttag atcagtggct agcgactgct actaatactt ggcagcaaaa ctttggtcag 3000
ctgttagcag cgcaagtaga aagcatagta cagctagcgc aaaaagctag tcacaactgg 3060
acgttattct tattgttgat ttttgcttat gccagcttgc gcttcattga agcttacggc 3120
ttatggcaag ataaaacttg ggcctattgg tttagcgtca tcggatacgg tgtttttata 3180
cctatagagc tgtactatct gttcgctagt acattccttt ccagcacact g 3231
//
Fin de l'entrée EMBL AJ416110
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 16 / 44
Banques généralistes Recherche
Visualisation (EMBL/EBI) : présentation, couleurs
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 17 / 44
Banques généralistes Recherche
Visualisation : liens...
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 18 / 44
Banques généralistes Recherche
Visualisation (Uniprot)
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 19 / 44
Banques généralistes Recherche
Fonction �rechercher� de l'éditeur de texteExemple : HSP70ID FD661730; SV 1; linear; mRNA; EST; FUN; 601 BP.
AC FD661730;
DT 26-SEP-2008 (Rel. 97, Created)
DT 10-MAR-2011 (Rel. 108, Last updated, Version 2)
DE Ac_My_14d_4.12.01 Aspergillus carbonarius cDNA-AFLP library Aspergillus
DE carbonarius cDNA similar to Heat shock protein 70 (HSP70), mRNA sequence.
...
CC Isolated by cDNA-AFLP differential display, with primers:
CC Eco+AAC-Mse+ATC; encoding a putative Heat shock protein 70 (HSP70);
CC GO terms annotation: GO:0008150 GO:0006464 GO:0005215 GO:0006810
...
//
...
ID AB549340; SV 1; linear; mRNA; STD; INV; 2259 BP.
AC AB549340;
DT 09-MAR-2011 (Rel. 108, Created)
DT 09-MAR-2011 (Rel. 108, Last updated, Version 1)
DE Crassostrea gigas hsp70B mRNA for heat shock protein 70B, complete cds.
OS Crassostrea gigas (Pacific oyster)
OC Eukaryota; Metazoa; Mollusca; Bivalvia; Pteriomorphia; Ostreoida;
OC Ostreoidea; Ostreidae; Crassostrea.
...
RN [2]
RA Yokoyama Y.;
RT "cDNA cloning and expression of 70 kDa heat shock protein (HSP70) in the
RT oyster Crassostrea gigas";
RL Unpublished.
...
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 20 / 44
Banques généralistes Recherche
Problème : le texte n'est pas le sens - 1
Le mot est employé, mais le sens n'est pas celui qu'on cherche
ID TDX_ARATH Reviewed; 380 AA.
AC Q8VWG7; Q7XJ63; Q8LG82; Q9LVI2; Q9LVI3;
DE RecName: Full=TPR repeat-containing thioredoxin TDX;
DE AltName: Full=hsp70-interacting protein 2;
DE Short=AtHIP2;
OS Arabidopsis thaliana (Mouse-ear cress).
...
ID A8IRV0_CHLRE Unreviewed; 567 AA.
AC A8IRV0;
DE SubName: Full=Hsp70-Hsp90-organizing protein;
GN Name=HOP1; ORFNames=CHLREDRAFT_136069;
OS Chlamydomonas reinhardtii (Chlamydomonas smithii).
...
ID Q86BZ5_DROME Unreviewed; 238 AA.
AC Q86BZ5;
DE SubName: Full=Heat shock factor;
OS Drosophila melanogaster (Fruit fly).
RN [1]
RP NUCLEOTIDE SEQUENCE.
RC STRAIN=HV;
RA Bettencourt B.R., Lerman D.N., Feder M.E.;
RT "Escaping gene conversion: Adaptive molecular evolution of Hsp70
RT trans-regulators.";
RL Submitted (APR-2003) to the EMBL/GenBank/DDBJ databases.
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 21 / 44
Banques généralistes Recherche
Problème : le texte n'est pas le sens - 2
Le sens est celui qu'on cherche, mais le mot n'est pas employé
ID HQ434763; SV 2; linear; mRNA; STD; INV; 2169 BP.
AC HQ434763;
DT 30-NOV-2010 (Rel. 107, Created)
DT 02-MAR-2011 (Rel. 108, Last updated, Version 3)
DE Ostrinia furnacalis heat shock 70 kDa cognate protein (HSC70) mRNA,
DE complete cds.
OS Ostrinia furnacalis (Asian corn borer)
OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera;
OC Endopterygota; Lepidoptera; Glossata; Ditrysia; Pyraloidea; Crambidae;
OC Pyraustinae; Ostrinia.
RN [1]
RP 1-2169
RA Yang X., He K.L., Wang Z.Y., Li N.;
RT "Clone and sequence of heat shock protein 70kda protein gene from asian
RT corn borer";
RL Unpublished.
...
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 22 / 44
Banques généralistes Recherche
Pour aider : 1 - Nom recommandé
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 23 / 44
Banques généralistes Recherche
Pour aider : 2 - Keywords et Gene Ontology
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 24 / 44
Banques généralistes Recherche
Gene Ontology : un vocabulaire contrôlé...
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 25 / 44
Banques généralistes Recherche
Gene Ontology : ... et hiérarchisé
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 26 / 44
Banques généralistes Bilan sur les banques
Banques généralistes
Quelques points forts
Universalité : tout y est
Rapidité : directement de l'auteur à l'interrogeur
Quelques limites
Redondances : gènes séquencés et/ou entrés plusieurs fois
Hétérogénéité : annotation di�érente selon les auteurs
Vocabulaire : une banque contient des mots et non du sens
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 27 / 44
Banques généralistes Bilan sur les banques
Banques généralistes
Quelques points forts
Universalité : tout y est
Rapidité : directement de l'auteur à l'interrogeur
Quelques limites
Redondances : gènes séquencés et/ou entrés plusieurs fois
Hétérogénéité : annotation di�érente selon les auteurs
Vocabulaire : une banque contient des mots et non du sens
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 27 / 44
Bases
Sommaire
1 Banques généralistesDescription des banquesAlimenter les banques de donnéesRechercher une ou plusieurs entrée(s)Points forts et limites des banques
2 Bases de données relationnellesDé�nitionPossibilités des BdD
3 Conclusion
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 28 / 44
Bases Dé�nition
Une Base de Données
Se dé�nit par quelques principes :
Cohérence des descriptions et du vocabulaire
Unicité de l'information
Intégrité des données
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 29 / 44
Bases Dé�nition
De la banque à la baseDeux entrées :
ID CYAA_AERHYAC Q59119 ;DE Adenylate cyclase (EC 4.6.1.1) (ATP pyrophosphate-lyase) (Adenylyl cyclase).GN CYA.OS Aeromonas hydrophila.OC Bacteria ; Proteobacteria ; Gammaproteobacteria ; Aeromonadaceae ; Aeromonas.RX MEDLINE=97028791 ; PubMed=8874804 ;RA Trotot P., Sismeiro O., Vivares C., Glaser P., Bresson-Roy A., Danchin A. ;RT "Comparative analysis of the cya locus in enterobacteria and related Gram-negRL Biochimie 78 :277-287(1996).CC - !- CATALYTIC ACTIVITY : ATP = 3',5'-CYCLIC AMP + DIPHOSPHATE.CC - !- SUBCELLULAR LOCATION : CYTOPLASMIC.CC - !- SIMILARITY : BELONGS TO ADENYLYL CYCLASE CLASS-1 FAMILY....ID CYAA_PROMIAC Q59685 ;DE Adenylate cyclase (EC 4.6.1.1) (ATP pyrophosphate-lyase) (Adenylyl cyclase).GN CYA.OS Proteus mirabilis.OC Bacteria ; Proteobacteria ; Gammaproteobacteria ; Enterobacteriaceae ;Proteus.RX MEDLINE=97028791 ; PubMed=8874804 ;RA Trotot P., Sismeiro O., Vivares C., Glaser P., Bresson-Roy A., Danchin A. ;RT "Comparative analysis of the cya locus in enterobacteria and related Gram-negRL Biochimie 78 :277-287(1996).CC - !- CATALYTIC ACTIVITY : ATP = 3',5'-CYCLIC AMP + DIPHOSPHATE.CC - !- SUBCELLULAR LOCATION : CYTOPLASMIC.CC - !- SIMILARITY : BELONGS TO ADENYLYL CYCLASE CLASS-1 FAMILY....
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 30 / 44
Bases Dé�nition
De la banque à la baseDeux entrées :
ID CYAA_AERHYAC Q59119 ;DE Adenylate cyclase (EC 4.6.1.1) (ATP pyrophosphate-lyase) (Adenylyl cyclase).GN CYA.OS Aeromonas hydrophila.OC Bacteria ; Proteobacteria ; Gammaproteobacteria ; Aeromonadaceae ; Aeromonas.RX MEDLINE=97028791 ; PubMed=8874804 ;RA Trotot P., Sismeiro O., Vivares C., Glaser P., Bresson-Roy A., Danchin A. ;RT "Comparative analysis of the cya locus in enterobacteria and related Gram-negRL Biochimie 78 :277-287(1996).CC - !- CATALYTIC ACTIVITY : ATP = 3',5'-CYCLIC AMP + DIPHOSPHATE.CC - !- SUBCELLULAR LOCATION : CYTOPLASMIC.CC - !- SIMILARITY : BELONGS TO ADENYLYL CYCLASE CLASS-1 FAMILY....ID CYAA_PROMIAC Q59685 ;DE Adenylate cyclase (EC 4.6.1.1) (ATP pyrophosphate-lyase) (Adenylyl cyclase).GN CYA.OS Proteus mirabilis.OC Bacteria ; Proteobacteria ; Gammaproteobacteria ; Enterobacteriaceae ;Proteus.RX MEDLINE=97028791 ; PubMed=8874804 ;RA Trotot P., Sismeiro O., Vivares C., Glaser P., Bresson-Roy A., Danchin A. ;RT "Comparative analysis of the cya locus in enterobacteria and related Gram-negRL Biochimie 78 :277-287(1996).CC - !- CATALYTIC ACTIVITY : ATP = 3',5'-CYCLIC AMP + DIPHOSPHATE.CC - !- SUBCELLULAR LOCATION : CYTOPLASMIC.CC - !- SIMILARITY : BELONGS TO ADENYLYL CYCLASE CLASS-1 FAMILY....
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 31 / 44
Bases Dé�nition
Table (relation) enzyme
Regroupe les informations relatives à une enzyme
Identi�cateur unique (EC)
EC 4.6.1.1Gene CYAName Adenylate cyclaseActivity ATP = 3',5'-CYCLIC AMP + DIPHOSPHATELocalisation CYTOPLASMICSimilarity ADENYLYL CYCLASE CLASS-1 FAMILY
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 32 / 44
Bases Dé�nition
Table (relation) publication
Regroupe les informations relatives à une référence
Identi�cateur unique (PMID)
Publi 8874804Authors Trotot P., Sismeiro O., Vivares C., Glaser P.,
Bresson-Roy A., Danchin A.Title Comparative analysis of the cya locus in enterobacteria
and related Gram-negative facultative anaerobesJournal BiochimieYear 1996Number 78Pages 277-287
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 33 / 44
Bases Dé�nition
Liens
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 34 / 44
Bases Dé�nition
Table (relation) Entrée EMBL
AC Q59119ID CYAA_AERHYEC 4.6.1.1Publi 8874804Species Aeromonas hydrophila
AC Q59685ID CYAA_PROMIEC 4.6.1.1Publi 8874804Species Proteus mirabilis
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 35 / 44
Bases Dé�nition
Schéma conceptuel
Base colibri (Thèse de Claudine Médigue, UPMC 1991)
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 36 / 44
Bases Possibilités
Propriétés
Cohérence
Association entre objet (identi�cateur) et popriétés (champs)
Descriptions de même �granularité�
Une relation exprime du sens
RequêteOn peut facilement poser des questions du type :
Quels sont tous les auteurs ayant publié en 1996des articles sur des protéines cytoplasmiques ?
Comment faire ça avec �rechercher� ?
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 37 / 44
Bases Possibilités
Propriétés
Cohérence
Association entre objet (identi�cateur) et popriétés (champs)
Descriptions de même �granularité�
Une relation exprime du sens
RequêteOn peut facilement poser des questions du type :
Quels sont tous les auteurs ayant publié en 1996des articles sur des protéines cytoplasmiques ?
Comment faire ça avec �rechercher� ?
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 37 / 44
Bases Possibilités
Propriétés
Cohérence
Association entre objet (identi�cateur) et popriétés (champs)
Descriptions de même �granularité�
Une relation exprime du sens
RequêteOn peut facilement poser des questions du type :
Quels sont tous les auteurs ayant publié en 1996des articles sur des protéines cytoplasmiques ?
Comment faire ça avec �rechercher� ?
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 37 / 44
Bases Possibilités
Quelques bases
Par organisme
http://www.yeastgenome.org Saccharomyces cerevisiae
http://www.arabidopsis.org Arabidopsis thaliana
http://flybase.org Drosophila melanogaster
http://zfin.org Danio rerio
Par type de données
http://www.mirbase.org micro-ARN
http://wwwdev.ebi.ac.uk/interpro Motifs de protéines
http://www.ebi.ac.uk/intact Interactions
http://biocyc.org Métabolisme
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 38 / 44
Bases Possibilités
L'idée du siècle
Pourquoi pas...
L'EMBL en Base de Données ?
Avant de se lancer dans cette entreprise, une question
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 39 / 44
Bases Possibilités
L'idée du siècle
Pourquoi pas...
L'EMBL en Base de Données ?
Avant de se lancer dans cette entreprise, une question
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 39 / 44
Bases Possibilités
L'idée du siècle
Pourquoi pas...
L'EMBL en Base de Données ?
Avant de se lancer dans cette entreprise, une question
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 39 / 44
Bases Possibilités
Question de base (5 min.)
Prenez une feuille et un crayon...
Donnez la dé�nition d'un gène(2 phrases maximum)
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 40 / 44
Bases Possibilités
Question de base (5 min.)
Prenez une feuille et un crayon...
Donnez la dé�nition d'un gène(2 phrases maximum)
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 40 / 44
Bases Possibilités
Question de base (5 min.)
Prenez une feuille et un crayon...
Donnez la dé�nition d'un gène(2 phrases maximum)
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 40 / 44
Bases Possibilités
Corrigé
Un gène est :
une portion d'ADN susceptible d'être transcrite
un locus positionné sur un chromosome
une partie codante et sa zone régulatrice
une unité de transmission de l'hérédité
un polynucléotide responsable de la synthèse d'un produit
.................. (votre dé�nition)
Toutes ces réponses sont correctesPour chacune, un schéma conceptuel di�érent
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 41 / 44
Bases Possibilités
Questions à résoudre avant de faire une table
Devons-nous considérer qu'il y a un gène ou plusieurs...
... en cas de duplication ?
... pour les gènes homologues dans di�érentes espèces ?
... pour les mutants ?
... en cas d'épissage alternatif ?
Tout dépend de nos centres d'intérêt
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 42 / 44
Conclusion
Sommaire
1 Banques généralistesDescription des banquesAlimenter les banques de donnéesRechercher une ou plusieurs entrée(s)Points forts et limites des banques
2 Bases de données relationnellesDé�nitionPossibilités des BdD
3 Conclusion
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 43 / 44
Conclusion
Conclusion
Banque ou base ?
OBI3 (Ens. Sup. Pub.) Banques et bases 20 avril 2018 44 / 44