Banques de données de séquences biologiques

24
Banques de données de Banques de données de séquences biologiques séquences biologiques Guy Perrière Guy Perrière Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS 5558

description

Banques de données de séquences biologiques. Pôle Bioinformatique Lyonnais Laboratoire de Biométrie et Biologie Évolutive UMR CNRS 5558. Guy Perrière. Terminés et publiés Terminés non publiés Séquençage en cours Total. Bactéries 124 92 286 502. Archées 16 3 20 39. Eucaryotes 16 - PowerPoint PPT Presentation

Transcript of Banques de données de séquences biologiques

Page 1: Banques de données de séquences biologiques

Banques de données de Banques de données de séquences biologiquesséquences biologiques

Guy PerrièreGuy Perrière

Pôle Bioinformatique LyonnaisLaboratoire de Biométrie et Biologie Évolutive

UMR CNRS 5558

Page 2: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Projets génomesProjets génomes

Génomes eucaryotes séquencés et publiésGénomes eucaryotes séquencés et publiés   ::• A. gambiaeA. gambiae, , A. thalianaA. thaliana, , C. elegansC. elegans, , C. intestinalisC. intestinalis, , D. D.

melanogastermelanogaster, , E. cuniculiE. cuniculi, , G. thetaG. theta, , H. sapiensH. sapiens, , M. M. musculusmusculus, , N. crassaN. crassa, , O. sativaO. sativa ssp. ssp. indicaindica, , O. sativaO. sativa ssp. ssp. japonicajaponica, , P. falciparumP. falciparum, , P. yoeliiP. yoelii, , S. cerevisiaeS. cerevisiae, , S. S. pombepombe..

Bactéries

124

92

286

502

Terminés et publiés

Terminés non publiés

Séquençage en cours

Total

Archées

16

3

20

39

Eucaryotes

16

9

241 (133)

266 (158)

Page 3: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Banques de séquencesBanques de séquences

Premières compilations papier dès 1965 Premières compilations papier dès 1965 ((Atlas of Protein SequencesAtlas of Protein Sequences).).

Développement de banques de données Développement de banques de données informatisées au début des années 80informatisées au début des années 80   ::• Rapidité d’accès.Rapidité d’accès.• Premières analyses bioinformatiques réalisées Premières analyses bioinformatiques réalisées

sur de nombreuses séquencessur de nombreuses séquences  ::– Usage des codons (Grantham Usage des codons (Grantham et al.et al., 1981)., 1981).

Page 4: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Les banques généralistesLes banques généralistes

Plusieurs banques ont été conçues dans différents Plusieurs banques ont été conçues dans différents laboratoires au début des années 80laboratoires au début des années 80   ::

Nucléotides

EMBLGenBankDDBJ

Protéines (1)

TrEMBLGenPept

Protéines (2)

SWISS-PROTPIR†

La disponibilité de toutes ces banques pose plu-La disponibilité de toutes ces banques pose plu-sieurs problèmessieurs problèmes  ::• Incompatibilité des formats, quelle banque utiliserIncompatibilité des formats, quelle banque utiliser   ??

Page 5: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Banques compositesBanques composites

Une solution a la prolifération des banques est de Une solution a la prolifération des banques est de créer des banques composites.créer des banques composites.

Malheureusement, plusieurs banques de ce type ont Malheureusement, plusieurs banques de ce type ont également été développéeségalement été développées  !!

NRDB

SWISS-PROTPIRGenPeptPDB

OWL†

SWISS-PROTPIRGenPeptNRL_3D

SP/TrEMBL

SWISS-PROTTrEMBL

NRDB et SWISS-PROT/TrEMBL suppriment NRDB et SWISS-PROT/TrEMBL suppriment uniquement la redondance uniquement la redondance exacteexacte..

Page 6: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Provenance des séquencesProvenance des séquences

Les données proviennent de soumissions Les données proviennent de soumissions directes par les auteursdirectes par les auteurs   ::• Numéro d’accession délivré par les centres de Numéro d’accession délivré par les centres de

saisie (EMBL / GenBank / DDBJ).saisie (EMBL / GenBank / DDBJ).

Les soumissions sont réalisées par l’inter-Les soumissions sont réalisées par l’inter-médiaire du réseau Internet.médiaire du réseau Internet.

Les séquences recueillies sont échangées Les séquences recueillies sont échangées quotidiennementquotidiennement  ::• Le contenu des trois banques est identique.Le contenu des trois banques est identique.

Page 7: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Croissance des donnéesCroissance des données

5

6

7

8

9

10

11L

og

(Nb

. rés

idu

s)

08/8

3

11/8

4

02/8

6

05/8

7

08/8

8

11/8

9

02/9

1

05/9

2

08/9

3

11/9

4

02/9

6

05/9

7

08/9

8

11/9

9

02/0

1

05/0

2

08/0

3

Date

GenBankEMBLPIRSWISS-PROT

Page 8: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Contenu de GenBankContenu de GenBank

35,635,6101099 nucléotides. nucléotides. 29,829,8101066 séquences. séquences. 11 470470 659 gènes (protéines et ARN).659 gènes (protéines et ARN). 329329 891 références bibliographiques.891 références bibliographiques. 120,8 giga-octets sur disque.120,8 giga-octets sur disque. Augmentation de 34,2Augmentation de 34,2  % en 12 mois.% en 12 mois. 18-2418-24  h pour transférer l’intégralité de Gen-h pour transférer l’intégralité de Gen-

Bank Bank viavia Internet. Internet.

Page 9: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Échantillonnage taxonomiqueÉchantillonnage taxonomique

145145  371 espèces pour 371 espèces pour lesquelles on a au lesquelles on a au moins une séquence.moins une séquence.

Dix espèces (0,07Dix espèces (0,07  ‰) ‰) représentent 63,3représentent 63,3  % du % du nombre total.nombre total.

7676  053 espèces ne sont 053 espèces ne sont représentées que par représentées que par une séquenceune séquence  !!

Homo sapiensMus musculusZea maysCanis familiarisRattus norvegicusBos taurusGallus gallusBrassica oleaceraArabidopsis thalianaDanio rerio

24,1 %17,4 %

6,2 %3,0 %2,8 %2,1 %2,0 %2,0 %1,9 %1,8 %

Les dix espèces les plusreprésentées dans GenBank

Page 10: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

La redondanceLa redondance

Un problème majeur Un problème majeur est celui de la redon-est celui de la redon-dance.dance.

De nombreuses en-De nombreuses en-trées sont dupliquéestrées sont dupliquées  ::

• 2020  % des séquences de % des séquences de vertébrés.vertébrés.

Les doublons présen-Les doublons présen-tent souvent des dif-tent souvent des dif-férences.férences.

{ {

{

Duplications partielles oucomplètes dans les séquences

Page 11: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Erreurs dans les banquesErreurs dans les banques

De nombreuses erreurs figurent dans les De nombreuses erreurs figurent dans les banques de séquences nucléotidiquesbanques de séquences nucléotidiques   ::• Au niveau des annotationsAu niveau des annotations  ::

– Imprécisions, omissions et erreurs.Imprécisions, omissions et erreurs.

– Incohérences entre différents champs.Incohérences entre différents champs.

• Dans les séquences elles-mêmesDans les séquences elles-mêmes  ::– Erreurs de séquençage.Erreurs de séquençage.

– Compression, lecture des gels.Compression, lecture des gels.

– Insertion de vecteurs de clonage.Insertion de vecteurs de clonage.

Page 12: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Banques spécialiséesBanques spécialisées

De très nombreuses banques spécialisées De très nombreuses banques spécialisées ont été développées :ont été développées :• Génomes complets ou en cours de séquençageGénomes complets ou en cours de séquençage   ::

– Association à des projets de cartographie (euca-Association à des projets de cartographie (euca-ryotes pluricellulaires).ryotes pluricellulaires).

• Familles de gènesFamilles de gènes  ::– Consacrées à certains organismes (procaryotes, Consacrées à certains organismes (procaryotes,

vertébrés) ou à des familles particulières (immuno-vertébrés) ou à des familles particulières (immuno-globulines, récepteurs nucléaires).globulines, récepteurs nucléaires).

• Domaines et signatures.Domaines et signatures.

Page 13: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Banques génomiquesBanques génomiques

Banques disponibles

SubtiList

ColibriECDC (E. coli Database Collection)

GenoListPkGDB (Prokaryotic Genomes Database)CMR (Comprehensive Microbial Resource)EMGLib (Enhanced Microbial Genomes Libray)Micado (Microbial Advanced Database Organization)

MYGD (MIPS Yeast Genome Database)SGD (Saccharomyces Genome Database)YPD (Yeast Proteome Database)

PlasmoDB (P. falciparum Database)

WormBaseWormPD (Worm Protein Database)

TAIR (The Arabidopsis Information Resource)

Organisme

Bacillus subtilis

Escherichia coli

Procaryotes divers

Saccharomyces cerevisiae

Plasmodium falciparum

Caenorhabditis elegans

Arabidopsis thaliana

Page 14: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Banques de familles de gènesBanques de familles de gènes

De nombreuses études requièrent de dispo-De nombreuses études requièrent de dispo-ser de séquences homologues :ser de séquences homologues :• Recherche de parties codantes.Recherche de parties codantes.• Détection des erreurs de séquençage.Détection des erreurs de séquençage.• Études des voies métaboliques.Études des voies métaboliques.• Phylogénie moléculaire.Phylogénie moléculaire.• Transferts horizontaux.Transferts horizontaux.• Structure des protéines.Structure des protéines.

Page 15: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Banques disponiblesBanques disponibles

Banque

ProtoMapProClassCluSTrSYSTERSCOGsHOBACGENHOGENOMEHOVERGENRTKdb

NuReBase

ABCdb

Basée sur

SWISS-PROTPIR/PROSITESWISS-PROT/TrEMBLSWISS-PROT/PIRGenomeSWISS-PROT/TrEMBLSWISS-PROT/TrEMBLSWISS-PROT/TrEMBLSWISS-PROT/TrEMBL

GenPept

SWISS-PROT/TrEMBL

Contenu

Tous organismesTous organismesTous organismesTous organismesGénomes completsBactéries et archéesGénomes completsVertébrésRecepteurs à tyrosinekinasesRecepteurs nucléairesde métazoairesTransporteurs ABC de bactéries

Page 16: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Consultation et interrogationConsultation et interrogation

Se font essentiellement par accès à des Se font essentiellement par accès à des serveurs au travers d’Internetserveurs au travers d’Internet   ::• Pas de prise en compte des problèmes de Pas de prise en compte des problèmes de

gestion des banques par les utilisateursgestion des banques par les utilisateurs   ::– Stockage des données.Stockage des données.– Mises à jour.Mises à jour.– Simplicité d’utilisation.Simplicité d’utilisation.

• Moyens d’accèsMoyens d’accès  ::– Logiciels clients dédiés (Entrez, FamFetch).Logiciels clients dédiés (Entrez, FamFetch).– Comptes utilisateurs (INFOBIOGEN).Comptes utilisateurs (INFOBIOGEN).– SitesSites WebWeb..

Page 17: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Le serveur du PBILLe serveur du PBIL

Accès à un ensemble d’outils pour l’analyse des Accès à un ensemble d’outils pour l’analyse des séquences nucléiques et protéiquesséquences nucléiques et protéiques   ::• Banques de séquences généralistes (GenBank, EMBL, Banques de séquences généralistes (GenBank, EMBL,

SWISS-PROT, PIR).SWISS-PROT, PIR).

• Banques spécialisées développées dans notre groupe Banques spécialisées développées dans notre groupe (HOBACGEN, HOVERGEN, HOGENOME, RTKdb, (HOBACGEN, HOVERGEN, HOGENOME, RTKdb, NuReBase).NuReBase).

• Programmes de recherche de similarités et Programmes de recherche de similarités et d’alignement (BLAST, d’alignement (BLAST, -BLAST, FASTA, -BLAST, FASTA, SSEARCH)SSEARCH)

• Programmes de modélisation moléculaire (12 méthodes Programmes de modélisation moléculaire (12 méthodes différentes).différentes).

Page 18: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Accès aux banquesAccès aux banques

Requêtes sur les séquencesRequêtes sur les séquences   ::• Nom, numéros d’accession, mots-clés, Nom, numéros d’accession, mots-clés,

références bibliographiques, taxonomie, etc.références bibliographiques, taxonomie, etc.

Requêtes sur les famillesRequêtes sur les familles   ::• Numéros d’accession, critères taxonomiques.Numéros d’accession, critères taxonomiques.

Visualisation des donnéesVisualisation des données   ::• Séquences, alignements et arbres phylogéné-Séquences, alignements et arbres phylogéné-

tiques.tiques.

Page 19: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Requêtes sur les séquencesRequêtes sur les séquences

Sequence listSequence list

Page 20: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Accès aux séquencesAccès aux séquences

Page 21: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Accès aux famillesAccès aux familles

Page 22: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Visualisation des donnéesVisualisation des données

Page 23: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

Pour conclure…Pour conclure…

Les données figurant dans ces banques sont en Les données figurant dans ces banques sont en accès libre (soumission et consultation)accès libre (soumission et consultation)   ::• Fond commun utilisable par l’ensemble de la Fond commun utilisable par l’ensemble de la

communauté des chercheurs.communauté des chercheurs.

• Problèmes de la qualité des donnéesProblèmes de la qualité des données  ::– Nécessité de disposer de personnes en charge du contrôle des Nécessité de disposer de personnes en charge du contrôle des

annotations.annotations.

Il existe de très nombreuses banques disponibles Il existe de très nombreuses banques disponibles (863 recensées par Lion Biosciences(863 recensées par Lion Biosciences   !)!)  ::• Problèmes de l’interconnection et de l’interopérabilité Problèmes de l’interconnection et de l’interopérabilité

des données. des données.

Page 24: Banques de données de séquences biologiques

Pôle Bioinformatique Lyonnais – http://pbil.univ-lyon1.fr

RemerciementsRemerciements

Laboratoire de Biométrie et Biologie ÉvolutiveLaboratoire de Biométrie et Biologie Évolutive   ::• Simon Penel, Laurent Duret, Manolo Gouy, Céline Simon Penel, Laurent Duret, Manolo Gouy, Céline

Delucinge.Delucinge.

Unité de Recherche INRIA Rhône-Alpes:Unité de Recherche INRIA Rhône-Alpes:• Jean-François Dufayard.Jean-François Dufayard.

Centre de Génétique Moléculaire et CellulaireCentre de Génétique Moléculaire et Cellulaire   ::• Julien Grassot, Frédéric Tingaud.Julien Grassot, Frédéric Tingaud.

Laboratoire de Biologie Moléculaire et CellulaireLaboratoire de Biologie Moléculaire et Cellulaire   ::• Marc Robinson, Jorge Duarte, David Ruau.Marc Robinson, Jorge Duarte, David Ruau.