UNIVERSITE ABDELMALEK ESSAADI - IMIST
Transcript of UNIVERSITE ABDELMALEK ESSAADI - IMIST
Ndeg drsquoordre 55 Anneacutee 2012
UNIVERSITE ABDELMALEK ESSAADI FACULTE DES SCIENCES et TECHNIQUES
TANGER
UFR Valorisation Biotechnologique des Micro-Organismes
THESE
Preacutesenteacutee
Pour lrsquoobtention du
DOCTORAT EN SCIENCES ET TECHNIQUES
Par Kamar MARRAKCHI
Discipline Bioinformatique
Speacutecialiteacute Bioinformatique
Une approche hybride pour une inteacutegration seacutemantique des donneacutees biologiques
de Pseudomonas
Soutenue le 19122012 devant le Jury
Pr Ahmed LAMARTI Faculteacute des Sciencesndash Teacutetouan Preacutesident
Pr Mohamed ETTAYEBI Faculteacute des Sciences ndash Fegraves Rapporteur
Pr Ismael Navas DELGADO ETS Ingenieriacutea Informaacutetica ndash Maacutelaga Rapporteur
Pr Mrsquohamed AIT KBIR Faculteacute des Sciences et Techniques ndash Tanger Examinateur
Pr Khalid LAIRINI Faculteacute des Sciences et Techniques ndash Tanger Examinateur
Pr Joseacute F Aldana MONTES ETS Ingenieriacutea Informaacutetica ndash Maacutelaga Co-Directeur
Pr Badr Din ROSSI HASSANI Faculteacute des Sciences et Techniques ndash Tanger Co-Directeur
Une approche hybride pour une inte gration se mantique des donne es
biologiques de Pseudomonas
Remerciement
1
Reacute sumeacute
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Leur faciliteacute de
culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de Pseudomonas
ont fait de ce genre un foyer ideacuteal pour la recherche scientifique Lrsquoimportance biologique fournie
par les Pseudomonas dans le domaine de la recherche a donneacute naissance agrave un grand nombre
drsquoinformations Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a
conduit agrave une heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante Aujourdrsquohui lrsquoun des grands deacutefis
de la bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources de
donneacutees heacuteteacuterogegravenes via des proceacutedures automatiques Dans ce cadre notre travail a pour finaliteacute la
reacutealisation drsquoun environnement inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce
travail entre dans le cadre drsquoune collaboration scientifique entre notre laboratoire de recherche
LABIPHABE et le groupe KHAOS de lrsquouniversiteacute de Malage
Lrsquooriginaliteacute de notre travail est de combiner lrsquoapproche mateacuterialiseacutee (entrepocirct de donneacutees) et
lrsquoapproche virtuelle (meacutediateur) pour profiter de ces avantages agrave la fois Lrsquoentrepocirct va permettre
lrsquoaccegraves direct et rapide aux donneacutees alors que le meacutediateur permettra lrsquointeacutegration de diffeacuterentes
sources de donneacutees et aussi il permettra la mise agrave jour des donneacutees en cas de besoin Notre entrepocirct
de donneacutees nommeacute PseudomonasDW integravegre les donneacutees biologiques stockeacutees dans cinq bases de
donneacutees diffeacuterentes accessibles via le Web Genbank PRODORIC UniProt KEGG et
BRENDA PseudomonasDW est un entrepocirct de donneacutees semi-structureacute pour lrsquointeacutegration
seacutemantique des donneacutees du genre Pseudomonas Il a eacuteteacute conccedilu dans le but de reacutepondre aux besoins
des biologistes en matiegravere de donneacutees geacutenomiques proteacuteomiques et meacutetaboliques Lrsquointeacutegration des
donneacutees agrave partir des sources de donneacutees heacuteteacuterogegravenes repreacutesente la consolidation des donneacutees
heacuteteacuterogegravenes conduisant agrave la reproduction des nouvelles donneacutees ne peuvent pas ecirctre obtenues agrave
partir drsquoune seules source
Mot cleacutes Pseudomonas inteacutegration de donneacutees entrepocirct meacutediateur approche hybride
PseudomonasDW
2
Reacutemeacutercieacutemeacutents
3
Reacutemeacutercieacutemeacutents
Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani
pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute
et aideacute tout au long de ses anneacutees de thegravese
Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-
encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de
recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches
Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger
mon travail
Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe
khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton
preacutecieux soutien
A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute
leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont
teacutemoigneacutes
Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec
une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton
encouragement
Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes
compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave
lrsquoavancement de ce travail
Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere
Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma
grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille
Briache
Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail
4
Sommaireacute
5
Sommaireacute
Introduction geacuteneacuterale 18
1 Problematique et motivation 19
2 CADRE ET BUTS DU TRAVAIL 23
3 Les pseudomonas 24
31 Caracteres geacuteneacutereaux 24
32 Pouvoir pathogegravene 26
33 Lutte biologique 27
4 Structure de document 28
Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
1 Introduction 31
2 Eacutetat des sources 32
21 Varieacuteteacute des sources biologiques 33
22 Autonomie et capaciteacutes drsquointerrogation 35
3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37
31 Diversiteacute syntaxique 37
32 Diversiteacute seacutemantique 38
33 Diversiteacute des langages de requecircte 39
34 Diversiteacute des services 39
4 Eleacutements de standardisation 40
41 Format standards et nomenclatures 40
42 Ontologies 41
43 Meacutetadonneacutees 42
44 Langages et formalismes 43
Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46
1 Introduction 47
2 points de variation entre les approches drsquointeacutegration 49
21 Degreacute drsquointeacutegration 49
211 Approche agrave couplage serreacute 49
6
212 Approche agrave couplage lacircche 50
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50
221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50
222 Types drsquointeacutegrations seacutemantique 51
223 Approches ascendante et descendante 51
23 Mateacuterialisation des reacutesultats 52
24 Accegraves aux donneacutees 52
3 approches drsquointeacutegration en bioinformatique 52
31 Approche non mateacuterialiseacutee 53
311 Le systegraveme meacutediateur 53
312 Le systegraveme navigationnel 61
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70
321 Deacutefinition et Architecture 70
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74
324 Les modegraveles des entrepocircts de donneacutees 75
325 Adeacutequation Problegravemes rencontreacutes 81
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82
4 Discussion 86
Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de
Pseudomonas sp 90
1 Introduction 91
2 Vue Global sur le systegraveme PseudomonasDW 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94
211 Bases de donneacutees geacutenomique et proteacuteique 95
212 Bases de donneacutees meacutetaboliques 96
213 Bases de donneacutees Enzymatique 97
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101
31 Scheacutemas de source 101
32 Services de donneacutees 102
321 Architecture du service de donneacutees dans PseudmonasDW 103
7
322 Impleacutementation du service de donneacutees dans PseudmonasDW 104
33 Scheacutema Inteacutegrateur du PseudmonasDW 107
34 Correspondances seacutemantiques entre les scheacutemas 110
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113
36 SB-KOM System Biology Khaos Ontology-based Mediator 115
4 Processus ETL dans Pseudomonasdw 117
5 Discussion et conclusion 123
Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp
126
1 Introduction 127
2 MODEacuteLISATION de PseudomonasDW 129
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129
22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133
23 Diagramme de classes du systegraveme PseudomonasDW 135
3 IMPLEMENTATION DE PSEUDOMONASDW 135
31 Organisation des bases de donneacutees de PseudomonasDW 136
32 Impleacutementation des bases de donneacutees de PseudomonasDW 139
4 INTERFACE WEB DE PSEUDOMONASDW 141
41 Les Moteurs de rechercheacute dans PseudomonasDW 141
42 Les entreacutees de Pseudomonas DW 144
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147
511 GBrowse Vue geacuteneacuterale 149
512 Installation de GBrowse 149
513 Creacuteation et peuplement des bases de donneacutees MySQL 150
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153
521 Blast Vue geacuteneacuterale 153
522 La fonctionnaliteacute du Blast 154
6 PDWiki 157
61 Geacuteneacuteraliteacute sur les Wikis biologiques 158
62 PDWiki Infrastructure et contenue 159
63 Comment naviguer dans PDWiki 162
8
7 DISCUSSION 163
Conclusions et perspectives 165
1 Reacutesumeacute des contributions 168
2 Ouverture et pistes de recherche 172
Glossaire 174
Annexes 181
Bibliographie 188
Reacutefeacuterences Internet 197
9
INDEX DES FIGURES ET DES TABLES
FIGURES
Figure 1 Architecture dun systegraveme meacutediateur 54
Figure 2 Lapproche GAV (Global As View) 56
Figure 3 Lapproche LAV (Loacl As View) 56
Figure 4 Approche GLAV 57
Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62
Figure 6 Graphe de liens entre les sources 63
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65
Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67
Figure 9 Architecture de BioGuide 69
Figure 10 Architecture dun entrepocirct de donneacutees 71
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de
donneacutees 73
Figure 13 Exemple de cube de donneacutees 76
Figure 14 Modegravele en eacutetoile 78
Figure 15 modegravele en flocon 78
Figure 16 Modegravele en constellation 78
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le
systegraveme PseudmonesDW 103
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108
10
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre
conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux
relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et
les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et
lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la
formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet
sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles
de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en
haut des eacuteleacutements de lontologie en rouge 118
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc
contient des informations pour acceacuteder aux services de donneacutees 119
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat
final de leacutetape ETL au sein de systegraveme PseudomonasDW 121
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction
de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de
chargement de donneacutees au sei de PseudmonasDW 122
Figure 33 Le diagramme de cas dutilisation de lutilisateur 131
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132
Figure 35 Le diagramme de cas dutilisation de ladministrateur 133
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134
Figure 37 Le diagramme conceptuel de PseudomonasDW 137
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A
gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW
A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas
aeruginosa PAO1 139
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees
au niveau de PseudomonasDW 140
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne
la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de
seacutelectionner un champ speacutecifique de recherche 142
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections
Organism et Gene de lentreacutee PAE00524 145
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154
11
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles
lutilisateur peut choisir 155
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences
indeacutependamment des bases de donneacutees de PseudomonasDW 155
Figure50 Exemple de reacutesultat de Blast 157
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir
et annoter lentreacutee PAE00524 de PseudomonasDW 161
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de
PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162
Figure 53 Architecture deXist copy Wolfgang Meier 187
TABLES
Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54
Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117
Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130
Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131
Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140
12
ABREVIATION
13
ABREVIATION
ADN Acide Deacutesoxyribonucleacuteique
API Application Programming Interface
ASN Abstract Syntax Notation
BACIIS Biological And Chemical Information Integration System
BioGRID Biological General Repository for Interaction Datasets
BLAST Basic Local Alignment Search Tool
CGH Comparative genomic hybridization
ChEBI Chemical Entities of Biological Interest
CMR Comprehensive Microbial Resource
CPAN Reacuteseau Complet drsquoArchives Perl
CPL Collection Programming Language
CSS Cascading Style Sheets
CSUQ Computer System Usability Questionnaire
CYGD Comprehensive Yeast Genome Database
DAML DARPA Agent Markup Language
dbEST Expressed Sequences Tags databases
DDBJ DNA Data Bank of Japan
DTD Document Type Definition
EBI European Bioinformatics Institute
EcoCyc Encyclopedia of Escherichia coli
EMBL European Molecular Biology Laboratory
EMBO European Molecular Biology Laboratory
EPG Entity Path Generator
ETL Extraction transformation and loading
ExPASy (Expert Protein Analysis System
FTP File Transfer Protocol
GAM Generic Annotation Management
GAV Global As View
GDB Human Genome Databases
GEDAW Gene Expression DAta Warehouse
GenMapper Genetic Mapper
GEO Gene Expression Omnibus
GeWare Gene Expression Warehouse
14
GFF General Feature Format
GIMS Genome Information Management System
GLAV Generalized Local As View
GMOD Generic Modele Organisme Database project
GNU GNUs Not UNIX
GO Gene Ontology
GPL General Public License
GRAIL GALEN Representation and Integration Language
GUS Genomics Unified Schema
HGNC Human Gene Organisation
HGP Human Genome Project
HGP Human Genome Project
HTML HyperText Markup Language
HTTP Hypertext Transfer Protocol
IBM International Business Machines
ICARUS Interpreter of Commands And Recursive Syntax
IMG Integrated Microbial Genomes
INSDC Internatinal Nucleotide Sequence Database Collaboration
INSERM Institut National de la Santeacute et de la recherche meacutedicale
IRISA Institut de Recherche en Informatique et Systegravemes
Aleacuteatoires
JAXB Java Architecture for XML Binding
JAXP Java API for XML Processing
JDBC Java Database Connectivity
K2MDL K2 Mediator Definition Language
KEGG Kyoto Encyclopedia of Genes and Genomes
KOMF Khaos Ontology-based Mediation Framework
LAV Local As View
MCM Modegravele Conceptuel Multidimensionnel
MeSH Medical Subject Headings
MGD Mouse Genome Database
MGI Mouse Genome Informatics
MIPS Munich Information Center for Protein Sequences
MOLAP Multidimensionnal On Line Analytical Processing
NAR Nucleic Acids Research
NBRF National Biomedical Research Foundation
NCBI National Center for Biotechnology Information
15
NIH National Institutes of Health
NXD Native XML Database
OBO Open Biomedical Ontologies
ODL Object Definition Language
ODMG Object Data Management Group
OIL Ontology Inference Layer
OLAP On Line Analytical Processing
OLTP On Line Transactionnel Processing
OMG Object Management Group
OMIM Online Mendelian Inheritance in Man
OOLAP Object On-Line Analytical Processing
OQL Object Query Language
OWL Web Ontology Language
PDP Protein Data Bank
Pfam Protein Famili
PHP Hypertext Preprocessor
PIR Protein Identification Ressource
PPI Protein-Protein Interaction
PQL Program Query Language
PRODORIC PROcariotIC Database Of Gene-Regulation
QUIS Questionnaire for User Interface Satisfaction
RDF Resource Description Framework
RDFS Resource Description Framework Schema
ROLAP Relational On-Line Analytical Processing
SB-KOM System Biology Khaos Ontology-based Mediator
SEPT Source Entity Path Translator
SGBD Systegraveme de gestion de base de donneacutees
SGD Saccharomyces Genome Database
SKB Source Knowledge Base
SOAP Simple Object Access Protocol
SOFG Standards and Ontologies for Functional Genomics
SQL Structured Query Language
SRS Sequence Retrival System
SUS System Usability Scale
Tambis Transparent Access to Multiple Bioinformatic
InformationSources
TaO Tambis Ontology
16
UCL Universiteacute catholique de Louvain
UML Unified Modelling Language
UMLS Unified Medical Language System
UniProt Universal Protein Resource
URL Uniform Resource Locator
USA United States of America
W3C World Wide Web Consortium
WSDL Web Services Description Language
XML Extensible Markup Language
XSLT Extensible Stylesheet Language Transformations
ZFIN Zebrafish Information Network
17
NOTE AU LECTEUR
Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire
18
INTRODUCTION GENERALE
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute
19
Introduction geacute neacute raleacute
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au
domaineacute biologiqueacute
Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere
exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des
sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au
plus grand nombre ouvrant ainsi de belles perspectives en recherche
La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant
les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation
diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse
du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees
diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de
reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees
heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte
Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte
La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs
disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la
complexiteacute du monde vivant (Blagosklonny and Pardee 2002)
Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de
diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques
implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de
donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature
1 PROBLEMATIQUE ET MOTIVATION
Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les
laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute
20
des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de
donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel
Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats
La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas
envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la
documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de
consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter
les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers
plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML
(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les
langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery
(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont
parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur
Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui
avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun
(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes
incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige
lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees
enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par
le biais de formulaires Web ou par une connexion directe au SGBD
De nos jours la masse formidable de donneacutees produites par les centres de recherche
atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de
systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb
2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette
accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune
science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee
2005)
Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des
donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute
particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces
sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare
de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige
leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du
systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise
optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La
1 httpwwwncbinlmnihgovnuccore
2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-
mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
21
majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des
serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent
montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge
Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne
concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct
lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la
preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres
deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-
Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de
logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans
compensation financiegravere5
Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave
rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee
possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux
problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin
dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes
eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario
typique reacutesolu manuellement
Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les
voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee
laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe
le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo
Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape
consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees
Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu
dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par
exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees
KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations
fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue
qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous
auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible
nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave
geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens
hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml
4 httpwwwmysqlcom
5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes
6 httpwwwbrenda-enzymesinfo
7 httpwwwgenomejpkegg
22
paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que
GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes
dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que
tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention
humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne
pas dire inexistante
Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages
de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des
solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface
unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le
cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles
(architecture de meacutediation)
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les
donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des
hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J
and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque
base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace
physique occupeacute serait trop important tant par les donneacutees que la conservation de leur
traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de
fonctionnement du systegraveme
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
23
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans
certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de
transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees
2 CADRE ET BUTS DU TRAVAIL
Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il
srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions
moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux
drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur
apparition croissante dans la litteacuterature scientifique
Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette
masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles
connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet
comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le
Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis
quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer
lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte
drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double
Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces
donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une
proteacuteine donneacutee
Fournir une plateforme complegravete permettant drsquoorienter la recherche par
extraction de nouvelles connaissances
La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en
combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la
mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine
biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre
24
groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de
Malaga
La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees
biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets
drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-
organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees
PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les
enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki
scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la
communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations
relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans
PseudomonasDW
3 LES PSEUDOMONAS
31 Caracteres geacuteneacutereaux
Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al
2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes
Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec
comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le
nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles
sont oxygegravene (+)
Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes
comme source de carbone et drsquoeacutenergie
Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux
antibiotiques et aux antiseptiques
A) Morphologie et structure
Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La
mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour
les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en
deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture
25
B) Croissance et nutrition
De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la
tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes
La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont
capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de
carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les
auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats
carboneacutes utilisables comme source drsquoeacutenergie pour la croissance
C) Caractegraveres physiologiques
Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de
conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de
culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle
tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip
D) Habita
Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol
humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et
se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels
surtout srsquoils sont humides
E) Morphologie et caractegraveres culturaux
Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune
pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de
cette bacteacuterie
Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC
ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la
production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et
non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski
convient pour la culture
F) Aspects de colonies
Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut
ecirctre observeacutee
Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un
contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect
meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave
lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes
Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord
circulaire reacutegulier
26
Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces
colonies se rencontrent presque speacutecifiquement dans des infections chroniques
urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un
polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo
G) Production de pigments
Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification
Ils sont fluorescents ou non fluorescents
Pyoverdine
Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en
eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est
inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer
Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes
fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas
aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de
nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un
moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer
et de le transporte
Pyocyanine
Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la
seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves
drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en
milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la
chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na
Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches
sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des
malades traiteacutes aux antibiotiques
Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent
de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le
diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P
lemonieri P stutzeri et P mendocina
32 Pouvoir pathogegravene
Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme
pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et
27
cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle
peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle
comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par
lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave
certains antibiotiques courants
Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble
laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique
de mauvaises conditions de plantation une autre maladie des blessures un systegraveme
racinaire contraint ou asphyxieacute
Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme
agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de
Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux
eacutetudieacutee
33 Lutte biologique
De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de
biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la
biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par
des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol
ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches
mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour
deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les
performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres
bacteacuteries
Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute
microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les
genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement
sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui
colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent
particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique
Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de
population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient
sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres
rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des
exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave
isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-
A-Woeng et al 2001)
28
Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues
depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans
certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents
phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs
meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de
sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition
du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela
peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la
maladie
4 STRUCTURE DE DOCUMENT
Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les
diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une
description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources
Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions
majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et
montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de
la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques
des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)
qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de
donneacutees originales jusqursquoagrave PseudomonasDW
Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les
espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les
phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet
aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous
deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans
PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur
drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW
Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs
29
Preacutemieacute reacute Partieacute
30
CHAPITRE 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
31
Chapitre 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
Sommaire
1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31
2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32
21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33
22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35
3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38
33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41
43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42
44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43
1 INTRODUCTION
Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif
est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de
solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees
Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80
sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier
1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute
une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise
en place de systegravemes de stockage des donneacutees
32
En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de
seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute
ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos
(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees
relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration
entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest
eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour
proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui
accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques
Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere
sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource
(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve
degraves 1986
2 EacuteTAT DES SOURCES
Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web
eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases
Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus
importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and
Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de
1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu
le jour
On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les
dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de
ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre
source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le
Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)
quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne
leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont
vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces
agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute
stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute
8 httpwwwemboorg
9 httpwwwnihgov
10 httpwwwncbinlmnihgov
11 httpwwwddbjnigacjp
12 httpwwwncbinlmnihgovgeo
13 httpwwwebiacukarrayexpress
33
creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le
deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement
analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)
drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les
reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de
donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements
multiples
La sous-section suivante dresse un rapide panorama drsquoun certain nombre de
sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web
21 Varieacuteteacute des sources biologiques
Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La
classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave
lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees
qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)
classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes
(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de
donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des
travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources
suivantes
Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du
domaine meacutedical Medline16 PubMed17
Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en
existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les
seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank
(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui
contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits
les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de
donneacutees sont ArrayExpress (Europe) et GEO (USA)
Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees
disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement
chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par
14
httpblastncbinlmnihgovBlastcgi 15
httppfamsangeracuk 16
httpwwwmedlinecom 17
httpwwwncbinlmnihgovpubmed
34
un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou
GEOArrayExpress) dans un certain format Toute publication scientifique
soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de
puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification
GenBankEMBLDDBJ (respectivement GEOArrayExpress)
Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne
sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des
seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la
soumission
Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces
sources contiennent des informations nettoyeacutees (au moins automatiquement
comme la suppression de doublons) et parfois mecircme valideacutees manuellement par
des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires
est de partir de donneacutees issues des sources primaires pour proposer des
informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations
compleacutementaires
Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont
deux exemples de sources secondaires qui proposent de regrouper les fiches
GenBank La premiegravere propose une version non redondante de GenBank elle est
obtenue en utilisant des techniques de regroupement semi-automatiques alors que
la seconde construit de faccedilon automatique des clusters de seacutequences
Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement
du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun
ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un
ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans
lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les
reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de
publications et associeacutes agrave un pheacutenotype (une maladie) donneacute
Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources
au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage
(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes
automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils
bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources
18
httpwwwncbinlmnihgovRefSeq 19
httpwwwncbinlmnihgovunigene 20
httpwwwncbinlmnihgov 21
httpwwwomimorg 22
httpprodomprabifrprodomcurrenthtmlhomephp
35
sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des
reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees
Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees
sur une famille de fonctions biologiques Par exemple la source BRENDA
est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique
sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources
FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database
SGD24 (deacutedieacutee agrave la levure)
Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de
fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes
dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve
dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de
synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes
humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt
(Consortium 2010) GenBank)
22 Autonomie et capaciteacutes drsquointerrogation
La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement
autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait
libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent
souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en
faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles
reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source
pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude
du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit
prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution
afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci
lors de lrsquoexeacutecution des requecirctes
Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web
est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet
eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de
cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les
accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client
23
httpflybaseorg 24
httpwwwyeastgenomeorg 25
httpwwwgenecardsorg
36
FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par
exemple) ou plus reacutecemment encore via des appels de services Web Concernant les
interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui
suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces
qursquoil devra utiliser
Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent
tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas
lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont
disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent
soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il
nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la
puissance de calcul drsquoune source par une requecircte trop complexe
soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive
drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source
Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme
drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et
via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs
sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus
expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL
Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais
aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)
ou Fasta26 (Lipman and Pearson 1985)
Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs
repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation
ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les
proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre
automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de
faciliteacute en fonction de lrsquoapproche suivie
26
httpwwwebiacukToolssssfasta
37
3 DIFFICULTES RENCONTREES LORS DE
LrsquoINTERROGATION DES SOURCES
Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web
nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de
donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout
une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements
effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au
cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble
de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi
que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux
des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements
En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele
de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a
deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati
2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses
approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La
taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation
mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des
probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al
2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques
qui rendent leur interrogation complexe et fastidieuse
31 Diversiteacute syntaxique
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les
formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees
soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson
1985) soit du XML du HTML ou des SGBD relationnels ou objets
Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase
drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le
deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du
langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin
2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et
al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave
reacutesoudre
27
httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
38
32 Diversiteacute seacutemantique
Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui
sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus
Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une
entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine
qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene
codant pour chaque proteacuteine est alors vu comme un simple attribut Au
contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et
crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le
domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine
(dans PDB29)
Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee
nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par
exemple UniProt propose des informations sur des proteacuteines issues de
diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles
ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire
chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune
des proteacuteines de la levure
Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une
mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par
exemple selon les sources une proteacuteine est une isoforme particuliegravere
(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes
(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui
peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou
incluant les introns
La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais
qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des
modegraveles des formats et des scheacutemas diffeacuterents
Diversiteacute des informations au niveau des instances
Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son
expertise agrave travers une fiche Il peut arriver que selon les sources une
mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes
Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance
associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est
peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe
drsquoannotateurs Certains annotateurs emploieront le terme de putative 28
httpwwwebiacukinterpro 29
httpwwwrcsborgpdbhomehomedo
39
pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront
le terme hypothetical Drsquoautres encore ne preacuteciseront rien
Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent
plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme
proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les
sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait
plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes
diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas
en preacutesence drsquohomonymie
Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi
ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de
vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie
les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable
puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de
la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees
33 Diversiteacute des langages de requecircte
Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le
langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)
est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases
de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la
source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin
et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes
OQL sur leur scheacutema
34 Diversiteacute des services
Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees
(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave
une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers
ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre
lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par
exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des
heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de
30
httpwwwensemblorgindexhtml
40
donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences
nucleacuteotidiques comme BlastN)
4 ELEMENTS DE STANDARDISATION
Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute
proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms
des concepts sous-jacents aux donneacutees des sources et des noms des relations entre
ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre
experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le
second type de solution est plus geacuteneacuterique il comprend la construction de cadres de
repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que
lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de
concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de
solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees
contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees
41 Format standards et nomenclatures
Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de
terminologies standards pour deacutecrire les donneacutees
Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir
des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies
pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un
workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu
annuellement et regroupe les principaux acteurs sur cette probleacutematique
Le souci de standardisation de lrsquoattribution de noms est pris en compte par le
consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature
Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences
31
httpwwwgenenamesorg
41
42 Ontologies
Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de
faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la
construction de nombreuses ontologies
Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la
philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions
informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune
conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus
souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie
cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a
donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces
concepts
Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine
biologique
Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui
vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques
speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un
organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement
consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants
cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la
communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres
ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie
MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)
Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open
Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en
ligne dont voici un extrait
Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces
particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du
Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish
Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on
distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour
32
httpwwwgeneontologyorg 33
httpwwwobofoundryorg 34
httpwwwinformaticsjaxorg 35
httpzfinorg 36
httpwwwnlmnihgovresearchumls
42
les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject
Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine
Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al
2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39
(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un
dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave
lrsquoEBI41
Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et
al 1997) propose un format de donneacutees une nomenclature et un cadre XML
(RNA-ML) (Waugh et al 2002)
Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)
nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN
et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies
se preacutesentent sous la forme de graphes non cycliques
43 Meacutetadonneacutees
Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil
srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave
une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee
permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation
et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples
de meacutetadonneacutees
lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification
des commentaires exprimant un point de vue sur la ressource
le scheacutema des donneacutees les index associeacutes
des informations de qualiteacute relatives au scheacutema de la ressource
des informations statistiques sur les donneacutees
la speacutecification la signature drsquoun programme
37
httpwwwnlmnihgovmesh 38
httpecocycorg 39
httpmetacycorg 40
httpwwwebiacukchebi 41
httpwwwebiacuk 42
httphelix-webstanfordeduribowebhtml
43
Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute
proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la
description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere
geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la
description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements
(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en
cateacutegories
Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description
(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant
le contenu de la ressource titre sujet ou codes de classement description
source langue relation avec une autre ressource couverture spatiale et temporelle
la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation
la mateacuterialisation de la ressource cycle de vie type format identificateur
44 Langages et formalismes
Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont
deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont
XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du
W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de
donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre
explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou
des applications
Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun
document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en
particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la
grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux
formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document
Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee
en XML
Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les
eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt
43
httpdublincoreorg 44
httpwwww3org
44
De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois
des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique
drsquoeacuteleacutements agrave une structure en graphe
Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un
document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire
deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide
XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il
assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML
crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension
seacutemantique
RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C
pour la description des sources sur le Web Les descriptions se font en exprimant des
proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave
deacutefinir les termes et les relations qui interviennent dans ces descriptions
RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des
meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces
meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes
de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le
Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme
drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en
acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre
une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut
ecirctre reacutealiseacutee et faciliteacutee
Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces
concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des
ontologies
OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute
par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les
applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave
preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML
RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle
OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la
disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus
riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees
45
httpwwww3orgTRrdf-concepts 46
httpwwww3orgTRrdf-schema 47
httpwwww3orgTR2009WD-owl2-primer-20090611
45
OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL
OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une
hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou
taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des
constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux
tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes
de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de
restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes
mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique
de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider
au raisonnement sur une base de connaissances OWL Full permet un maximum
drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe
proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du
vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL
pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de
connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description
46
CHAPITRE 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
47
Chapitre 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47
2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50
23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53
32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70
4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86
1 INTRODUCTION
Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les
questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions
au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes
drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave
plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces
systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and
Kambhampati 2004)
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute
proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur
48
Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des
autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire
communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque
permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire
n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les
systegravemes (Sheth and Larson 1990)
Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune
base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les
applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement
directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)
Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration
drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes
sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont
accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des
sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de
requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources
disponibles
Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves
reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees
biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures
comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees
mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans
le mecircme temps
Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre
les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de
lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les
donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches
sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la
lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes
Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave
ecirctre exhaustifs
49
2 POINTS DE VARIATION ENTRE LES APPROCHES
DrsquoINTEGRATION
On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le
degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la
mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et
al 2004)
Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit
lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en
un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme
est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a
eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un
systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types
drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La
mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les
vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes
envoyeacutees au systegraveme
21 Degreacute drsquointeacutegration
Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement
appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere
approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema
inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche
agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources
de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une
transparence drsquointerface
211 Approche agrave couplage serreacute
Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de
lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul
emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema
peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit
conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des
requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme
drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas
50
des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des
deacutefinitions de regravegles (voir la sous-section 3213)
Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre
tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema
inteacutegrateur
212 Approche agrave couplage lacircche
Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du
systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter
lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les
utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre
accessibles pour des requecirctes
Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour
les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de
sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas
sont toujours visibles
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration
Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees
provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees
Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle
lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web
seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune
telle infrastructure
221 Modegravele de donneacutees du systegraveme drsquointeacutegration
Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le
modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un
scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les
donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas
drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour
acceacuteder aux sources de donneacutees
51
222 Types drsquointeacutegrations seacutemantique
Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas
drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres
systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants
Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun
point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique
comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les
communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration
verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati
2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la
communauteacute informatique)
Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une
correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme
drsquointeacutegration
Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la
preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux
drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche
drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier
des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique
ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire
le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees
seacutemantique
223 Approches ascendante et descendante
Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre
seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche
lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball
2002)
Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des
besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele
de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans
lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces
meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins
des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les
sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir
desquelles les donneacutees deacutecisionnelles sont extraites
52
Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les
donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle
construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-
automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour
deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode
considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la
source (List et al 2002)
23 Mateacuterialisation des reacutesultats
Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle
deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de
lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre
deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche
virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global
extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes
adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees
Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette
approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce
stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les
donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un
entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de
donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes
sources de donneacutees doit passer par des proceacutedures de mises agrave jour
24 Accegraves aux donneacutees
Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes
pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la
navigation speacutecialement dans les systegravemes baseacutees sur le Web
3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE
Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute
dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une
53
approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees
Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres
suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes
sources et combineacutees dans un scheacutema global
31 Approche non mateacuterialiseacutee
Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels
sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques
de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme
ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour
drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web
proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50
(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble
eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et
permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute
de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases
comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs
reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble
drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome
humain
Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types
drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees
biologiques le systegraveme meacutediateur et le systegraveme navigationnel
311 Le systegraveme meacutediateur
Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un
systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent
stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture
meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous
indiquerons dans cette section comment certaines approches meacutediateur sont directement
issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est
celle qui est la plus reacutepondue en informatique
48
httpwwwncbinlmnihgovsitesgquery 49
httpexpasyorg 50
httpsrsebiacuk
54
A) Deacutefinition et Architecture
Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose
une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes
pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et
homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes
Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est
central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un
vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit
une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche
lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de
faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de
lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont
calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver
une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique
logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte
poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions
des vues
Figure 1 Architecture dun systegraveme meacutediateur
55
Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme
drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans
leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui
lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon
distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via
des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en
terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source
B) Approches GAV LAV et GLAV
Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par
la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des
sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales
drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave
inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes
(GLAV) (Baader et al 2003)
Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour
lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave
inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont
deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette
approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance
Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du
scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de
donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit
que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee
par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois
deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources
de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se
ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement
effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de
nouvelles sources de donneacutees
La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est
geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources
ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels
que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le
scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par
51
Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes
56
exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute
ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global
Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications
consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T
a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)
Figure 2 Lapproche GAV (Global As View)
Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les
scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et
inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche
LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de
donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre
ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du
scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute
et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une
requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en
termes de vues est en effet bien plus complexe que dans une approche GAV Nous
renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle
Figure 3 Lapproche LAV (Loacl As View)
57
Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche
GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee
en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche
GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une
nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans
lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue
sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut
deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif
que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du
pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la
conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison
entre les trois approches
Figure 4 Approche GLAV
Table1 Comparaison des approches GAV LAV et GLAV
Approche Reacuteeacutecriture de requecircte mise-agrave-jour source
GAV facile difficile LAV difficile facile
GLAV difficile facile
C) Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix
des sources ce qui est autant plus important qursquoil a un grand nombre de sources
disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple
surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du
scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque
58
les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui
eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable
(2) Problegraveme rencontreacutes
Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les
donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune
source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes
Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les
reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au
niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement
supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se
fait directement au niveau des donneacutees centraliseacutees
Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur
sont
Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des
langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave
inteacutegrer et les requecirctes des utilisateurs
En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de
reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave
exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale
Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans
de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre
potentiellement redondantes Pour faire correspondre les instances entre elles il
faut suivre les techniques de lrsquoalignement (mappings en anglais)
D) Panorama des meacutediateurs existants en Bioinformatique
(1) K2Kleisli
Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute
deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave
avoir vu le jour en bioinformatique
Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus
expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection
Programming Language) (Hart et al 1994) En effet le langage CPL permet de
deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources
concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources
59
qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de
KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et
EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences
nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et
al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome
Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de
seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par
SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema
orienteacute objet
Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un
langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect
inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non
seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes
objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du
langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur
de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les
sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL
(2) TAMBIS
Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un
systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester
(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO
(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave
travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au
niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le
systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee
pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les
rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une
requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave
la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de
K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux
sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au
format HTML
TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec
OWL qui sont des langages plus expressifs
52
httpwwwncbinlmnihgovdbEST 53
httpgdbwwwgdborg
60
Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa
besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier
avec un langage de requecircte particulier
(3) DiscoveryLink
DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de
DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une
architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire
drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)
utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute
syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont
soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute
lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les
adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator
(Arenson 2003) mais fonctionne toujours selon le mecircme principe
(4) BACIIS
Le projet BACIIS (Biological And Chemical Information Integration System) est un
systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS
BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique
de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le
langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois
dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes
organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees
(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que
rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)
La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de
donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de
donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet
drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme
drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux
inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la
correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme
permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration
54
httpwwwalmadenibmcomcsgarlic
61
312 Le systegraveme navigationnel
Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche
drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris
Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet
de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave
construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques
sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes
sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont
transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle
permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les
sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte
peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations
A) Deacutefinition
Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes
mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec
des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires
telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins
et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)
Notons que compareacute au nombre important de sources de donneacutees actuellement
disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin
dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research
(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les
sources les plus importantes partagent des identifiants mais nombreuses sont celles plus
petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que
partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences
souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les
interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle
atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur
augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive
(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee
par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet
Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger
rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne
neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est
fait encore aujourdrsquohui manuellement
B) Exploitation des reacutefeacuterences croiseacutees
Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un
premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple
62
Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des
informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)
Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune
mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave
des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes
sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas
neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-
reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour
La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur
lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous
consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le
montre lrsquoexemple de la Figure 5
Figure 5 Exemple de partage de reacutefeacuterences entre les sources
Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans
lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero
drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en
gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)
Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les
mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la
reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct
55
httpwwwncbinlmnihgovomim 56
httpamigogeneontologyorgcgi-binamigogocgi
63
La Figure 6 illustre le graphe de liens existants entre les quatre sources pour
reacutepondre agrave la requecircte
Figure 6 Graphe de liens entre les sources
En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent
Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3
Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle
possegravede afin drsquointerroger Source1 et Source2
La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune
boucle apparaicirct dans le parcours des sources
Table 2 Les deux deacuteroulements possibles
Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date
Sceacutenario 1 Sceacutenario 2
Requecircte avec une date sur S1
Requecircte sur S2
Agrave partir de id2 tireacute de S1
Requecircte sur S3
Requecircte avec une date sur S3
Requecircte sur S1 et S2
A partir de id1 et id2 tireacutes de S3
64
Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs
chemins possible pour obtenir les donneacutees souhaiteacutees
Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur
simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure
apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de
la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire
La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle
nrsquoapporte aucune information suppleacutementaire
Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer
les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-
section suivante
C) Panorama des systegravemes navigationnels existants en Bioinformatique
Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de
plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour
le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins
traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont
eacutevalueacutes ces diffeacuterents chemins
(1) Le systegraveme SRS
SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par
lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and
Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par
LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques
de donneacutees (Zdobnov et al 2002)
SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme
drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de
description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And
Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est
drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les
donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index
sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche
drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un
entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees
Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en
mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et
57
httpwwwbiochipnetcomnode1561
65
donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et
beaucoup de banques speacutecialiseacutees
ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences
permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de
relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences
La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web
SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot
cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent
ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la
recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-
reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations
compleacutementaires contenues dans drsquoautres sources
Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques
pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des
sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une
mecircme requecircte
(2) Le systegraveme BioMediator
Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave
lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de
transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses
reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger
Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et
lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur
Le systegraveme BioMediator suit une conception modulaire composeacute de six composant
(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees
biologiques structureacutes et semi-structureacutees
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de
66
Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds
repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de
meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre
une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes
dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe
PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin
PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte
et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes
dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)
(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI
Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema
meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de
scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation
seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees
(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte
XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)
(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des
regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les
requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs
chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins
Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork
et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui
correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une
confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite
Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur
plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des
chemins possibles plutocirct qursquoune liste reacuteduite
(3) Le systegraveme BioNavigation
BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle
Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)
Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation
drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne
pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont
lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau
physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique
58
httpprotegestanfordedu 59
httpwwwxmlcompuba20030611qexohtml
67
ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces
entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)
Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes
entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la
construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les
citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute
lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo
BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une
requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur
des moyens pour eacutevaluer et optimiser les choix de chemins
Figure 8 Exemple de graphe dentiteacutes (Niveau logique)
Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction
du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps
drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and
Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour
reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs
paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans
BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et
sont classeacutes selon trois paramegravetres
68
La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un
chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)
ougrave e1 est une entreacutee de S1 et e2 de S2
La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale
Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution
locale et les deacutelais drsquoaccession aux sources
Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le
satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la
probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le
nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du
chemin le plus efficace en temps
(4) Le systegraveme BioGuide
Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche
navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des
utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet
BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils
bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus
drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine
biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils
et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces
graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y
seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type
de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et
des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous
la forme de chemins entre les sources Ces chemins sont construits en respectant les
preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix
Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la
preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins
geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute
drsquoutilisation
Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat
drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les
diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de
strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes
au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la
requecircte et iii) visitent une source donneacutee une seule fois
69
Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de
lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte
et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)
(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans
le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La
requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se
compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur
le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave
partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des
chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees
Figure 9 Architecture de BioGuide
Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler
ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de
strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou
les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide
ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand
nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees
divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)
70
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)
Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees
reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema
global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis
exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse
est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les
donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique
transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle
Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations
individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et
surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave
lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il
est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce
qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees
global
321 Deacutefinition et Architecture
A) Deacutefinition
Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit
lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non
volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest
pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se
caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)
Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes
Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet
et neacutecessaires aux besoins drsquoanalyse dans une structure unique
Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees
en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour
reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le
reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources
Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la
reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont
non volatile elles ne disparaissent pas apregraves les mises agrave jours
60
httpenwikipediaorgwikiBill_Inmon
71
Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont
permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct
consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent
Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les
valeurs particuliegraveres dans le temps
Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils
drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter
facilement les donneacutees
B) Architecture
Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en
deacutetaillant les diffeacuterentes couches qui le constituent
Figure 10 Architecture dun entrepocirct de donneacutees
Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et
heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data
Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes
depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line
Analytical Processing) (voir la sous-section 322)
Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)
syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend
les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la
hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees
fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-
72
Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui
repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations
concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur
structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct
Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes
vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)
lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux
structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees
inteacutegreacutees dans le systegraveme cible
Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et
une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant
logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape
drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans
un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de
donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme
logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees
neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par
source ou un middleware pour toutes les sources
73
Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees
Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave
effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct
de donneacutees Ce processus de transformation requiert la mise en correspondance
structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de
lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-
scheacutemas ou appariement de scheacutemas (schema matching)
Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent
du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est
interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de
scheacutema et de correspondance inter-scheacutemas
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute
S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et
G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents
types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un
eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison
drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs
(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles
(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel
74
Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes
qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les
critegraveres de classification suivants (Rahm and Bernstein 2001)
Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir
des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au
niveau du scheacutema
Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des
eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-
structures complexes de scheacutemas
Langage versus contrainte Les correspondances peuvent se baser sur des
approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute
de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)
Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la
relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre
scheacutema ceci menant agrave quatre cas 11 1n n1 nm
Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne
reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires
telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees
Il faut noter que certains algorithmes effectuent les correspondances en se basant
sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel
Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W
Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement
transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la
deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement
dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs
caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des
systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car
les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)
Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP
pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes
sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des
modifications freacutequentes et des volumes de donneacutees par transaction relativement faible
Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour
preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une
75
reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de
modification
Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont
qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est
reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes
sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser
une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de
grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus
complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas
correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux
de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est
entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil
contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de
chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de
lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une
alimentation reacutefleacutechie et planifieacutee dans le temps
324 Les modegraveles des entrepocircts de donneacutees
La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees
transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de
donneacutees repose sur un modegravele multidimensionnel de donneacutees
A) La modeacutelisation conceptuelle
La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association
(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)
en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de
nouvelles entiteacutes
De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave
comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation
E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute
(1) Concept de fait de dimension et de hieacuterarchie
Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse
des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que
lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur
fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction
tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees
76
en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62
Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors
qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble
drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs
Figure 13 Exemple de cube de donneacutees
Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les
attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une
dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes
relations drsquoordre entre ses attributs
Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois
dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps
Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la
proteacuteine
(2) Modegraveles en eacutetoile en flocon et en constellation
A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees
simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure
est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente
visuellement une eacutetoile on parle de modegravele en eacutetoile
61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres
correspondant aux formations faisant varier les mesures de lactiviteacute 62
Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63
Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail
77
Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce
scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions
autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute
eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions
Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la
modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la
modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de
dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et
al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions
Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au
sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la
normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball
2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des
dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend
plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema
augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte
Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en
trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en
quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo
Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui
utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs
faits et des dimensions communes (Benitez-Guerrero et al 2001)
B) La modeacutelisation logique
Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation
multidimensionnelle Il est possible dutiliser
un systegraveme de gestion de bases de donneacutees existant tels que les SGBD
relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)
un systegraveme de gestion de bases de donneacutees multidimensionnelles
(MOLAP)
Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de
bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line
Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere
suivante
Chaque fait correspond agrave une table appeleacute table de fait
Chaque dimension correspond agrave une table appeleacutee table de dimension
78
Figure 14 Modegravele en eacutetoile
Figure 15 modegravele en flocon
Figure 16 Modegravele en constellation
79
Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes
et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension
contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la
table de fait
Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de
lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel
se traduit ainsi
Chaque fait correspond agrave une classe appeleacutee classe de fait
Chaque dimension correspond agrave une classe appeleacutee classe de dimension
Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on
utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par
(Object Data Management Group) lrsquoODMG64
Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme
multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD
multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce
tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant
aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-
calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les
systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer
Les systegravemes MOLAP apparaissent comme une solution acceptable pour le
stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne
deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont
consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression
doivent ecirctre utiliseacutees
Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de
redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les
utiliseacutees sont
Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun
des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un
ensemble de faces diffeacuterents
Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune
dimension
Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune
repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble
64
wwwodmgorg
80
de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de
dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune
opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas
connu agrave lrsquoavance
C) La modeacutelisation de donneacutees XML multidimensionnelles
Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards
tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant
disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent
chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage
drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un
environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees
XML est de les convertir en donneacutees relationnelles Cependant mettre en place un
entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche
inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes
dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery
Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and
Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction
pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML
Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque
document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme
respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la
validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier
repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile
ou en flocons de neige
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing
81
La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave
lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel
multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute
en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette
approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur
leurs contenus
Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document
XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun
ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et
hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au
modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML
325 Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis
les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest
reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les
donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et
non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en
œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de
lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique
(Davidson et al 2001 Hernandez and Kambhampati 2004)
La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut
stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees
provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la
gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo
La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des
donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par
thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en
consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs
sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un
thegraveme
La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au
sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes
sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement
82
La transformation de donneacutees lors de lrsquointeacutegration Le processus de
transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de
reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration
verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce
processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de
reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema
La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles
localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees
provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte
(2) Problegravemes rencontreacutes
Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction
de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des
sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction
des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette
tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection
drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment
de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct
Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages
des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees
des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)
Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport
aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et
comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes
increacutementaux
Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car
les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations
ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches
drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique
A) GUS
Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand
entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS
est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les
maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux
proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support
pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et
83
lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour
stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative
2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al
2007)
Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts
(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et
annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de
nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et
dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il
possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat
drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des
donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS
chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de
regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale
B) GEDAW
Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees
deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des
eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de
Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse
des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees
dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves
disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de
GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches
biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees
inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie
GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees
structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology
UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de
correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme
instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent
ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences
renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)
ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est
incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut
lui aussi eacutemettre des regravegles de nettoyage des donneacutees
65
httpplasmodborgplasmo 66
httpwwwcbilupenneduepcondb42 67
httpwwwncbinlmnihgovprojectsSNP
84
Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les
scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-
mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de
deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de
transformer les structures des sources vers une forme canonique (le scheacutema global) Dans
le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour
identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres
pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des
informations
C) BioWarehouse
BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de
construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de
bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de
BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot
Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le
chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de
lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de
BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source
correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le
chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la
seacutemantique et du scheacutema global
Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un
fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des
donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations
drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas
freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation
drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir
de diffeacuterents modules
Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema
relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou
commerciales comme ORACLE
68
httpbiocycorg 69
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
85
D) GenMapper
GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques
biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene
UniProt GO InterPro KEGG et OMIM
Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema
global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic
Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les
donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales
que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source
comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le
systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le
reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu
dans le scheacutema GAM
GenMapper propose une interface conviviale de conception de requecircte ougrave
lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il
choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur
GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de
deacutepart
GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes
drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche
drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes
E) GEWARE
GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees
qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations
sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types
drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la
creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP
Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits
correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations
et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees
en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-
down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations
GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les
analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper
70
httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71
httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
86
est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees
sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare
4 DISCUSSION
Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la
recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes
drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee
Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les
donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les
rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle
au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix
en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter
Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32
fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans
un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les
donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs
propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees
inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche
permettant de lutter efficacement contre les donneacutees inconsistantes provenant de
diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands
volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la
conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes
drsquoanalyses ulteacuterieures
Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des
approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches
conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct
deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside
dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour
Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de
lrsquoaccessibiliteacute de ces sources externes
La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration
horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires
et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes
sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de
compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes
ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne
87
peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et
qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des
principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de
maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune
source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un
certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent
de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes
De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le
modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les
avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees
biologiques et avons dresseacute un panorama des solutions existantes en informatique en
montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques
88
Deacuteuxieacute meacute Partieacute
89
90
CHAPITRE 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp
91
Chapitre 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes
donneacute eacutes deacute Pseacuteudomonas sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91
2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101
31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101
32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102
33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107
34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113
36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117
5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123
1 INTRODUCTION
Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties
sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si
depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour
ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte
92
lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre
drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et
techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en
informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un
entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-
structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques
meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit
drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus
biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes
conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la
litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les
avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees
(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave
certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent
motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de
recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des
donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce
domaine font souvent appel agrave des traitements trop complexes pour tourner sur des
donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester
sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique
est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres
et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui
est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le
meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un
systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour
exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une
bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees
peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur
La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la
deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des
donneacutees
La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout
nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de
PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs
formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs
du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre
exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees
publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une
eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees
93
geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees
cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence
pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les
sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les
donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave
identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees
La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est
drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de
donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes
reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global
de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees
provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour
Respecter la fiabiliteacute de lrsquoinformation
Respecter la coheacuterence des informations une mecircme donneacutees pouvant
provenir de deux sources diffeacuterentes il faut alors choisir la plus
judicieuse
Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de
maniegravere unique une donneacutee
Unifier la repreacutesentation des donneacutees
Veacuterifier la non-redondance des informations
Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer
les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral
lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)
lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des
sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et
seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin
drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et
autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des
donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement
logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de
transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de
donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration
ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-
based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute
effectueacutee automatiquement en se basant sur quelques API (Application Programming
Interface) de java
94
2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW
Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est
un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de
lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees
inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies
Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema
inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et
meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui
nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)
Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un
environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de
construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation
souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave
lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans
les approches top-down les scheacutemas des sources importent peu pour la conception du
scheacutema global Ils seront seulement pris en compte dans un second temps quand les
correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour
permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema
global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne
connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir
PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-
up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema
telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus
drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les
donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en
assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La
combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples
permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus
cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements
cellulaire
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW
Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees
comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases
de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et
de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les
95
diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees
meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du
niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations
complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque
source de donneacutees sa provenance son contenu et sa structure
211 Bases de donneacutees geacutenomique et proteacuteique
PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du
gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une
collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de
donneacutees
GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee
comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont
publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al
2011) Cette base de donneacutees est produite au sein de NCBI (National Center for
Biotechnology Information) comme une partie de la collaboration internationale
des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal
Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs
reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de
380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre
des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines
avec la taxonomie le geacutenome le mappage la structure et les domaines
drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed
GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format
XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour
speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des
gegravenes et des seacutequences soumises
Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de
donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus
(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines
leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les
donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est
met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut
suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant
189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les
donneacutees en format HTML XML et Fasta
72
httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml
96
PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation
Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des
informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur
les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC
contient principalement des informations deacutetailleacutees sur les structures des opeacuterons
et des promoteurs y compris une eacutenorme collection des sites de liaisons et de
facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison
reacutegulateurs est disponible et une matrice du poids de position (position weight
matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la
litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave
plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du
serveur du PRODORIC par la technologie SOAP via le protocole HTTP en
utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit
eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux
utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs
propres programmes
212 Bases de donneacutees meacutetaboliques
KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme
humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est
consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique
(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux
moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les
informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de
donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions
(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus
respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers
chimique
Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies
(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus
cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du
SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui
facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique
Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure
drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes
(Kanehisa et al)
74
httpwwwprodoricde
97
213 Bases de donneacutees Enzymatique
PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees
enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la
collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles
agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme
une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et
deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique
de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites
directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en
biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des
programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est
veacuterifieacutee manuellement par au moins un biologiste et un chimiste
Le contenu de BRENDA couvre des informations sur la fonction la structure
loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des
donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et
lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que
laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des
caracteacuteristiques de la structure
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de
PseudmonasDW
Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont
plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la
litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction
drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative
Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-
hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave
aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on
parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)
que drsquoentrepocirct de donneacutees (ou data warehouse)
Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des
donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema
inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine
le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct
98
Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa
complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser
notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour
une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les
instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees
drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM
(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est
baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware
nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de
cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans
le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques
qui sont accessible via le web (Briache et al 2012)
Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de
donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment
impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de
lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de
lrsquoarchitecture du systegraveme
La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves
aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)
Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al
2003)
Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un
flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest
acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit
drsquoune technologie informatique intergicielle (comprendre middleware) permettant
drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une
autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees
dans les applications des transformateurs qui manipulent les donneacutees et des mises en
correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est
lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW
Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont
uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos
Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre
des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees
dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW
est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque
source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers
99
occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un
adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte
approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements
suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de
donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les
fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave
partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP
Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de
performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de
lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees
au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les
combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux
obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au
format HTML
Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par
lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation
qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees
Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des
services web Finalement le systegraveme transforme les donneacutees extraites en un format
commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser
une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le
scheacutema global par des regravegles de correspondances deacutefinies (mappings)
Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle
en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons
aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un
entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du
systegraveme est citeacute dans la section suivante
75
httpjenaapacheorg 76
httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77
httpexistsourceforgenet
100
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW
101
3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE
LrsquoENTREPOT DE DONNEES PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans
cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de
plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)
le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees
drsquoorigine
En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon
deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les
donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par
SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme
un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration
seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du
PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source
et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement
agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une
description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW
31 Scheacutemas de source
La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW
constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude
deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour
deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons
creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont
consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les
sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes
102
de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale
sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA
32 Services de donneacutees
Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees
et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration
(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees
accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute
comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons
deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons
deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du
Web
Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs
en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent
ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation
de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au
protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des
103
applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un
modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et
srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un
service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de
meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les
services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes
et reacuteutilisables raquo
Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la
fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture
adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service
Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le
protocole Web raquo
321 Architecture du service de donneacutees dans PseudmonasDW
Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)
Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de
diffeacuterentes sources de donneacutees
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW
Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux
sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document
104
XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa
seacutemantique comme un service web La seacutemantique du service Web inclut des informations
sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans
le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de
donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de
service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application
Programming Interface)
LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois
meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document
XML La structure du ce document doit satisfait les contraintes du scheacutema de la source
Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux
meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema
XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur
la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)
Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux
diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant
geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au
service Web La partie importante de la classe Service est de tenir la correspondance entre
la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de
donneacutees Autrement dit la classe service est responsable de mettre des correspondances
entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees
322 Impleacutementation du service de donneacutees dans PseudmonasDW
Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache
Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter
le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous
les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le
fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du
service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute
webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service
78
httptomcatapacheorg 79
httpwsapacheorgaxisoverviewhtml
105
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web
La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier
deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des
proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement
ltservicegt (Figure 22)
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web
Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont
Lrsquoattribut name indique le nom du service web
Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute
pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider
106
Java RPC qui permet drsquoexposer une classe Java quelconque en tant que
service Web
Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements
ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes
Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la
classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le
chemin vers la classe java compileacutee associeacutee au service Web (nous referons
ici agrave la classe Service)
Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes
exposeacutees par le service Web La valeur speacuteciale indique que nous avons
exposeacutes toutes les meacutethodes du serveur Web
La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service
dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil
drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur
de deacuteploiement du service via la commande suivante
java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd
-httphostnameportnumberwebServiceFolderNameservicesAdminService
Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService
WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute
effectueacutee par la saisie de la direction lsquohttphostnameportnumber
webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis
drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement
107
33 Scheacutema Inteacutegrateur du PseudmonasDW
Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de
sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche
deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de
lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les
donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute
effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des
sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct
est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des
informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune
redondance au niveau du scheacutema inteacutegrateur
Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des
informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour
identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons
appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du
scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema
global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
laquo Le scheacutema global correspond agrave la description des relations entre toutes les
donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de
leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo
(King et al 2008)
En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la
deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel
modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre
exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW
Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la
reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
(Figure 24)
108
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW
Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un
scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une
interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une
ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema
conceptuel
Une ontologie de domaine est une laquo description intentionnelle de ce qui nous
connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des
concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine
de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre
domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses
caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une
terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure
lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts
Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees
par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui
modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel
simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui
repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les
proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie
109
peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la
cateacutegorie des concepts relieacutes aux sources de donneacutees
Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les
entiteacutes biologiques (par exemple les classes gene genome protein
enzymehellip)
Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes
reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple
le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans
lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de
donneacutees originales Ce type de concept a un rocircle tregraves important pour garder
les traces de donneacutees dans PseudmonasDW
Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de
proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les
individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype
properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de
PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes
des objets
Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au
niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les
eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des
objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees
Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur
drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation
speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code
pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate
(Roychoudhury et al 1992)
Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase
sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo
algU reacutegule le gegravene algD
Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes
abreacuteviations que leurs gegravenes
Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif
Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132
110
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)
A partir de cet exemple nous pouvons deacuteduire
Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo
Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux
concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo
Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts
lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo
pour le concept lsquoEnzymersquo
Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du
concept lsquoProteinrsquo
Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie
standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de
OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de
domaine qui preacutesente une simple hieacuterarchie des concepts
34 Correspondances seacutemantiques entre les scheacutemas
En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin
drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements
approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de
ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une
111
des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees
(Toumani et al 2007)
Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As
View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des
sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente
une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue
deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de
donneacutees
Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de
sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de
correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de
donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que
nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA
P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath
Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie
En geacuteneacuterale nous avons deacutefinie trois types de mappings
112
Mapping des Classes ce type de mappings deacutefinie des associations entre les
classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere
suivante
XPath-Element-Location Ontology-Class-Name correspondence-
index
Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement
du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo
repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie
lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine
la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave
100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de
mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema
du BRENDA
ResultEnzymeEnzyme100
ResultEnzymeFunctional_ParameterKMKM100
Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les
proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il
srsquoeacutecrie comme suit
XPath-Domain-Location XPath-value-Location Ontology-Domain-
Name Property-Name correspondence-index
Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du
scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment
lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son
rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent
respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la
proprieacuteteacute de type de donneacutees lsquohasValuersquo
ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional
_ParameterKMKM_ValueKMhasValue100
ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu
nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal
ue100
Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes
drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere
suivante
113
XPath-Domain-Location XPath-Range-Location Ontology-Domain-
Name Ontology-Range-Name Property-Name correspondence-index
Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo
deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la
proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo
et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau
de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet
Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee
au scheacutema de source
ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti
onal_ParameterhasFunctionalParameter100
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web
Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des
infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de
programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application
distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour
mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter
tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains
drsquoentre eux
Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par
le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration
de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est
baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic
Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de
base pour construire des applications de Web seacutemantique il est disponible en tant que
serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour
consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)
Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le
meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire
seacutemantique (Semantic Directory)
Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et
al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure
27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO
est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les
relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV
114
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core
Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum
des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique
Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents
types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core
Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware
pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)
getOntology( url) listOntologies() and listOntologies(concept)
Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies
enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les
impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les
correspondances (mappings) entre le scheacutema de cette ressource et les ontologies
enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux
utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(
serviceName url queryMethod schemaMethod))
Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface
drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies
Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux
diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos
services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a
permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre
disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et
115
solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de
deacutetail dans la section 36)
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM
36 SB-KOM System Biology Khaos Ontology-based Mediator
Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un
systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute
SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes
2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a
eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des
sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est
composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et
lrsquoeacutevaluateurinteacutegrateur
Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et
coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des
116
reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et
assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes
provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats
conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en
terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type
de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient
les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de
domaine
Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des
plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans
geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees
pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees
Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il
y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de
domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des
scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees
seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme
correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath
sont actives dans la proprieacuteteacute
Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte
conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de
concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres
Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous
1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux
groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats
ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux
arguments (les proprieacuteteacutes)
2 Construire GS un ensemble de combinaisons entre les deux groupes en se
basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave
cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes
3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les
mapping enregistreacutees au niveau de SD-Core
4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les
arguments preacutedicats
a La variable instancieacutee constitue le nœud racine
b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour
la variable instancieacutee et les eacuteleacutements qui ne contiennent que la
variable instancieacutee (sans les autres variables) seront passeacutes au nœud
courant et eacutelimineacutes de GS
117
c Les eacuteleacutements qui contiennent une autre variable en plus de celle
instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres
nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees
seront repreacutesenteacutes par drsquoautres variables qui seront des variables
instancieacutees
d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour
chaque nouvelle variable instancieacutee
LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de
requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes
dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de
lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans
lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees
souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit
des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant
les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de
services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie
des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de
domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de
requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations
inutiles
4 PROCESSUS ETL DANS PSEUDOMONASDW
Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer
comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus
drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise
par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive
suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct
Ans(PEOGPW)-
Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym
e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)
ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn
(PPW)
Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee
lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un
organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de
cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies
118
meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des
donneacutees sur le gegravene qui code pour elle
Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en
terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de
donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P
Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient
les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de
cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de
donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism
IsEnzyme CodedBy et ParticipateIn) (Figure 29)
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge
La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et
qui sont relieacutees aux
Organism par le biais de la relation ForOrganism
Pathway par la relation ParticipateIn
Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi
agrave la classe Organism par la relation ForOrganism
Gene par la relation CodedBy
Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une
fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au
planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la
119
requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique
lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan
drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un
ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les
preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et
appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par
la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par
le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes
possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3
A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire
des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables
instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux
variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave
exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave
lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut
pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend
Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe
agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la
proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils
deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees
lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations
ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus
lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend
au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees
120
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte
Groupe Sous-requecircte Service de Donneacutees
G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA
Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors
que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque
nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes
par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-
requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave
lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter
Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant
Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour
notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la
proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le
nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de
classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques
dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-
requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de
donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee
avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher
les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce
que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le
service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)
parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG
Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments
(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes
lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo
A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees
extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des
instances des scheacutemas XML des sources sous-jacentes Le composant
Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles
121
de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine
enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de
domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles
sont produites de services de donneacutees diffeacuterents Afin de les associer
lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au
niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de
domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant
EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat
obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees
extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est
automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java
(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-
db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees
XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de
donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW
122
Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL
(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees
souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les
services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la
transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les
instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer
dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La
derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a
permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif
(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein
de PseudmonasDW
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
123
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
5 DISCUSSION ET CONCLUSION
Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels
du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en
bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et
donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui
caracteacuterisent les donneacutees biologiques
Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et
analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon
doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus
quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont
pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques
caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique
De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus
complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de
processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute
La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie
par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel
environnement
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de
Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de
multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement
drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et
reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes
124
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes
Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour
extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs
forment une partie importante dans les services de donneacutees qui fournissent des moyens
pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de
donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une
interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les
donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM
Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous
somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui
offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De
cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance
(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema
inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de
domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts
et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de
lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement
aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees
dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques
bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration
seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs
avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement
stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre
part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le
meacutediateur
Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que
leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se
distingue des autres sur diffeacuterents points
125
Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une
diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de
connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique
et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des
donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de
GO
Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement
adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique
appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans
PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema
global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema
afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une
modification profonde du scheacutema
Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des
sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des
donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas
la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la
non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute
Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation
Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne
maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans
PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local
dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
126
CHAPITRE 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp
127
Chapitre 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes
Pseacuteudomonas Sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163
1 INTRODUCTION
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces
bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de
certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee
par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et
chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute
de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de
Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique
128
Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de
donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme
Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI
Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82
National Center for Biotechnology Information (NCBI) Microbial Genomes83
(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de
donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques
sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne
pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que
Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site
Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune
grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent
sur le suivi des changements des annotations et de permettre leur comparaison entre les
espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part
Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees
fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de
donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et
fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais
manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les
voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas
la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees
qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas
aeruginosa PAO1
Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le
chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui
regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece
de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour
une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase
de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les
acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique
aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de
PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires
concernant les espegraveces de Pseudomonas
80
httpimgjgidoegov 81
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82
httpwwwxbaseacuk 83
httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84
httpwwwmicrobesonlineorg 85
httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86
httpwwwpseudomonas-syringaeorg 87
httpwwwpseudomonascom
129
2 MODEacuteLISATION DE PSEUDOMONASDW
Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il
est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de
passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les
proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle
dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de
nombreux choix qui auront des reacutepercussions importantes dans la suite
La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux
drsquoabstraction diffeacuterents
Modegravele conceptuel repreacutesente le contenu de la base en termes
conceptuels indeacutependamment de toute consideacuteration informatique
Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un
scheacutema propre agrave un type de base de donneacutees
Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et
drsquoaccegraves aux donneacutees de la base
La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des
systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins
des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle
consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux
domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains
aspects des systegravemes physiques ou humains et de leur environnement
Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee
gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling
Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et
son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques
et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur
lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par
ce langage pour la conception de PseudomonasDW
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW
Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de
PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une
88
Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage
130
fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle
joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)
et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun
utilisateur exteacuterieur le voit
Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur
(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le
biologiste)
Table4 La liste des acteurs
Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via
lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies
par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit
Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en
introduisant son URL
Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des
mots cleacutes via son interface web
Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en
utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme
a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)
Table5 les cas drsquoutilisation de lrsquoutilisateur
Acteur Cas drsquoutilisation
Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet
PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web
Administrateur Le superviseur du systegraveme
Cas drsquoutilisation
Etablissement drsquoune connexion avec le systegraveme
Interrogation du systegraveme
Analyse de donneacutees
131
b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)
Figure 33 Le diagramme de cas dutilisation de lutilisateur
PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees
stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du
PseudomonasDW sont comme suit
Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par
lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du
systegraveme
Construction du reacutesultat
Translation du reacutesultat en un format lisible par lrsquoutilisateur
a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)
Table 6 les cas drsquoutilisation de PseudomonasDW
Cas drsquoutilisation
Translation de la requecircte
Construction du reacutesultat
Translation du reacutesultat
132
b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW
Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer
nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser
lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent
le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit
Inteacutegration de donneacutees au sein de PseudomonasDW
Nettoyage de donneacutees en eacuteliminant les redondances
Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de
donneacutees en fonction des sources originales
Maintenance de lrsquoentrepocirct de donneacutees
Maintenance de lrsquointerface Web
Ajout des fonctionnaliteacutes en cas de besoin
a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)
Table 7 les cas drsquoutilisation de lrsquoadministrateur
Cas drsquoutilisation
Inteacutegration de donneacutees
Nettoyage de donneacutees
Mise agrave jour de donneacutees
Maintenance de PseudomonasDW
Maintenance de lrsquointerface Web
Ajout de fonctionnaliteacutes
133
b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)
Figure 35 Le diagramme de cas dutilisation de ladministrateur
22 Diagrammes de seacutequence du systegraveme PseudomonasDW
Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets
selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects
dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes
sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute
drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du
Siemens Pattern Group (Buschmann et al 1996)
Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des
messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW
(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les
diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son
reacutecepteur
134
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur
Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de
PseudomonsDW
message eacutemetteur reacutecepteur
1 Demande de connexion Utilisateur Web app
2 Etablissement de connexion Web app Utilisateur
3 Envoi de requecircte via des formulaires HTML Utilisateur Web app
4 Reacuteception de requecircte Web app Web app
5 Geacuteneacuteration de requecircte XQuery Web app Web app
6 Envoi de la requecircte XQuery Web app PDW DB
7 Interrogation des indexes PDW DB PDW DB
8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB
9 Construction de reacutesultat XML PDW DB PDW DB
10 Transformation de reacutesultat de XML en XHTML PDW DB Web app
11 Affichage de reacutesultat en forma XHTML Web app Utilisateur
135
23 Diagramme de classes du systegraveme PseudomonasDW
Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la
modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les
composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des
eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations
Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les
diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de
la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir
les diffeacuterentes classes et relations composant notre diagramme de classe
Le diagramme de classe de PseudomonasDW est constitueacute de six classes
principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)
auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de
raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous
a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses
diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des
bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes
en trois sections la section supeacuterieure contient le nom de la classe la section centrale
deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les
diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation
qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui
sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de
composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base
3 IMPLEMENTATION DE PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese
est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de
Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les
applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources
multiples
Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre
diviseacutes en deux familles (Mahboubi et al 2009)
La premiegravere famille propose une modeacutelisation multidimensionnelle pour les
entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en
eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des
dimensions et offrent un support pour des outils danalyse
136
Les approches de la seconde famille abordent la probleacutematique de lentreposage de
documents XML Elles perccediloivent un entrepocirct XML comme une collection de
documents XML
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous
sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les
donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML
Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML
Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des
documents XML obtenus de la transformation des instances RDF au niveau de notre
entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons
donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases
de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees
XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)
31 Organisation des bases de donneacutees de PseudomonasDW
Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du
genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base
de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection
des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees
selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des
scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce
modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de
lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de
PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons
nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo
137
Figure 37 Le diagramme conceptuel de PseudomonasDW
138
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW
Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees
Genomes complets
Pseudomonas aeruginosa PAO1 6264404 5682 5556
Pseudomonas aeruginosa M18 6327754 5764 5684
Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269
Pseudomonas aeruginosa LESB58 6601757 6061 5908
Pseudomonas aeruginosa PA7 6588339 6369 6246
Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886
Pseudomonas fluorescens PfO-1 6438405 5829 5714
Pseudomonas fluorescens Pf-5 7074893 6233 6137
Pseudomonas fluorescens SBW25 6722539 6106 5921
Pseudomonas fluorescens F113 6845832 5953 5862
Pseudomonas putida F1 5959964 5403 5245
Pseudomonas putida GB-1 6078430 5529 5408
Pseudomonas putida KT2440 6181863 5516 5350
Pseudomonas putida W619 5774330 5309 5182
Pseudomonas putida BIRD-1 5731541 5046 4960
Pseudomonas putida S16 5984790 5307 5171
Pseudomonas syringae pvphaseolicola 6112448 5437 5172
Pseudomonas syringae pvtomato 6397126 5688 5481
Pseudomonas syringae pvsyringae 6093698 5220 5089
Pseudomonas stutzeri A1501 4567418 4210 4128
Pseudomonas stutzeri DSM 4166 4689946 4372 4301
Pseudomonas stutzeri ATCC 17588 4547930 4287 4181
Pseudomonas entomophila L48 5888780 5275 5134
Pseudomonas mendocina ymp 5072807 4704 4594
Pseudomonas mendocina NK-01 5434353 5035 4954
Pseudomonas brassicacearum NFM421 6843248 6176 6081
Pseudomonas fulva 12-X 4920769 4540 4459
Genomes incomplets
Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207
Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905
Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221
Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096
Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402
Pseudomonas chlororaphis - - 218
Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts
(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie
meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements
figureacutes directement apregraves lrsquoeacuteleacutement racine
Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur
organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees
correspondante
Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au
gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee
Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees
sous lrsquoeacuteleacutement laquoProteinDataraquo
139
Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans
PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte
deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes
Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les
diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans
lrsquoentreacutee
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1
32 Impleacutementation des bases de donneacutees de PseudomonasDW
En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees
sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML
deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la
version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome
qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute
Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des
servlets pour lrsquoaccegraves distant
89
httpjettycodehausorgjetty
140
La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de
charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents
XML dans 33 collections une collection pour chaque espegravece entreposeacute dans
PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre
application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery
Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de
fonctions de XQuery
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW
90
XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML
141
4 INTERFACE WEB DE PSEUDOMONASDW
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
41 Les Moteurs de rechercheacute dans PseudomonasDW
Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des
moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees
XML natives
Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les
pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur
quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute
qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de
recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de
recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas
parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu
laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ
speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-
down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la
proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave
minimiser le temps et la complexiteacute de la recherche
Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la
possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce
formulaire de recherche ou moteur de recherche propose des champs de recherche
multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de
Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein
Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons
aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs
espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la
possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees
Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant
de 1 agrave 33
142
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche
143
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute
144
Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue
nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave
quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de
donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML
et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues
HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a
eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et
convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de
PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans
quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis
Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML
Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta
Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3
42 Les entreacutees de Pseudomonas DW
Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq
sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la
section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont
listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune
section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de
PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee
dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails
des cinq sections
La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces
informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la
langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant
pour les proteacuteines et les ARN
La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en
question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom
scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les
diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la
seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de
transcriptions les sites de liaison et les sites de mutations ou de modification Cette section
offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du
gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A
partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage
145
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524
146
La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle
contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui
permet un affichage et une lecture tregraves simple Les informations de cette section sont
repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la
proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et
lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes
caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les
reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que
la seacutequence peptidique de la proteacuteine
La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine
deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission
numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees
enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions
catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats
et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des
informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des
informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des
paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo
La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans
lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement
propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de
donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)
lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie
meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique
preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les
composants et les modules de la voie meacutetabolique
Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les
entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou
lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo
deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas
(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis
Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la
proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la
retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la
proteacuteine dans des voies meacutetaboliques
147
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW
Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees
biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types
Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees
bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper
ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant
Ces outils doivent donc ecirctre
Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet
Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs
Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre
de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre
obligeacute de jongler avec diffeacuterentes sources dinformations
Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des
biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les
premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les
deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la
visualisation des annotations associeacutees Cette classification est toutefois quelque peu
scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de
donneacutees outils dinterrogation et outils de navigation sur le geacutenome
Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation
aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes
agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique
quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce
manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et
inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre
outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires
entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces
stockeacutees dans PseudomonasDW
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)
Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas
facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs
points forts et plusieurs faiblesses
91
DataBank browsers 92
Genome browsers
148
Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente
la meilleure application pour la geacutenomique comparative mais dautre part un autre
navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec
beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de
deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et
qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest
pas aussi riche que Ensembl
Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux
besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave
Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen
attentif
Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur
geacutenomique pour PseudomonasDW
Ensembl est toute une application libre de droit dauteur sur son code source
qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le
neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute
et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse
ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et
la deacutecouverte et la reacutesolution de bugs plus difficile
Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des
avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute
que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le
fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans
le site Web Or la plupart des bases et banques de donneacutees geacutenomiques
existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme
navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs
utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le
trouveront plus aiseacute agrave manipuler
Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur
geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des
geacutenomes en plus de la rapiditeacute qui est indispensable
Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs
geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux
autres navigateurs (Sen et al 2010)
93
httpgmodorgwikiGBrowse
149
511 GBrowse Vue geacuteneacuterale
GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui
correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de
donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord
speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des
subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut
national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License
(ou GPL)
GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation
graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres
eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives
comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave
ADN GBrowse propose les fonctionnaliteacutes suivantes
vue globale et vue deacutetailleacutee du geacutenome
deacutefilement zoom et centrage
utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien
personnaliseacutees
joindre une URL arbitraire agrave une annotation
ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur
final
recherche par ID annotation nom ou commentaire
connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95
support multi-langues
prise en charge des annotations agrave partir du format GFF96
persistance des paramegravetres de session agrave session
plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de
nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des
cartes de restriction eacutediter des fonctions)
512 Installation de GBrowse
Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous
avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite
lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons
eu besoin drsquoinstaller
94
httpwwwbiosqlorgwikiMain_Page 95
httpgmodorgwikiChado_-_Getting_Started 96
httpgmodorgwikiGFF
150
Apache Web Server97
Perl 598
Les modules de Perl suivants
o GCI
o GD
o DBI
o DBD mysql
o Digest MD5
o Text shellwords
Bioperl99
Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi
drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une
installation automatique de GBrowse
adminadmin~$ sudo apt-get install gbrowse gbrowse-calign
gbrowse-data
La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les
donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de
gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec
sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape
drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des
adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature
que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD
le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est
le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations
au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer
la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB
SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le
plus reacutecent des adaptateurs et le plus recommandeacute
513 Creacuteation et peuplement des bases de donneacutees MySQL
Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une
eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par
PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque
chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees
relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce
97
httphttpdapacheorg 98
httpdevperlorgperl5 99
httpwwwbioperlorgwikiMain_Page
151
contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la
banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos
besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers
GFF3
La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de
donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait
la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans
PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees
pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees
MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par
lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse
adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn
dbimysqlDB_Name --user root --password
varlibgbrowsedatabasesfilegff3
La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles
soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de
fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la
forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de
GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui
152
srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le
paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de
configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi
nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour
donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante
Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse
nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un
onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave
lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil
GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage
reacutesultante
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011
153
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW
521 Blast Vue geacuteneacuterale
Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences
(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une
seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme
dun package composeacute des programmes suivants
blastn blast nucleacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques
blastp blast proteacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
proteacuteiques
blastx blast nucleacuteique vs proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
proteacuteiques
tblastn blast proteacuteique vs nucleacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
nucleacuteiques
tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences
nucleacuteiques
Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse
comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir
teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une
base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme
lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle
base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA
Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais
son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct
de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees
proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute
une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette
application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de
le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web
154
522 La fonctionnaliteacute du Blast
Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les
seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la
page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de
PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans
PseudomonasDW
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW
La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la
possibiliteacute de PrimeblasterPrime ses seacutequences contre
Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences
(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences
agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees
comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le
choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la
partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses
extreacutemiteacutes
Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire
de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette
155
option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des
bases de donneacutees stockeacutees au niveau de PseudomonasDW
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW
156
Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java
lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en
extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le
sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs
drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi
deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement
une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui
sera retourneacutee agrave lrsquoutilisateur via son navigateur Web
Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral
Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme
de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une
petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine
lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes
seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession
dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les
scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en
deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage
drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement
obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple
drsquoalignement
157
Figure50 Exemple de reacutesultat de Blast
6 PDWiki
Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons
deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de
donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des
informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies
meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts
diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive
Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les
Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous
introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa
maniegravere drsquoaccegraves
158
61 Geacuteneacuteraliteacute sur les Wikis biologiques
Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat
sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web
sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre
simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun
navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est
maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des
donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis
biologiques (bio-wikis) comprennent
Le deacuteveloppement collaboratif et le partage des connaissances
Lrsquoannotation collaborative de contenus de bases de donneacutees
La creacuteation collaborative de contenus de bases de donneacutees
Le deacuteveloppement collaboratif et le partage de la documentation et des
connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un
consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des
nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de
conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont
geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de
recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets
biologiques speacutecialiseacutes
Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait
que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement
coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de
donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux
utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats
indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler
cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien
que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de
donneacutees elles-mecircmes restent inchangeacutees
La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans
les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de
donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement
deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums
et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite
100
httpwwwwikipediaorg
159
62 PDWiki Infrastructure et contenue
PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki
baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et
correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des
extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de
diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104
automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de
MediaWiki
MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de
nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen
des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une
bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de
MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le
principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des
bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de
lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La
classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees
de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe
lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo
est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure
geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec
PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle
elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo
PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de
PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le
premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations
suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour
chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de
plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas
limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et
lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus
La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee
correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans
PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le
101
httpwwwmediawikiorgwikiMediaWiki 102
httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103
httpwwwmediawikiorgwikiExtension_Matrix 104
httpenwikipediaorgwikiWikipediaBots 105
httpjwbfsourceforgenet
160
nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans
PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas
modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir
PseudmonasDW
La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle
appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece
Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page
speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations
suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom
de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au
moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo
La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque
espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page
lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est
conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW
Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les
utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par
lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils
peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces
informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les
interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie
de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les
sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies
meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs
peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des
reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les
activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier
les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des
informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents
composants dans la section lsquoPathwaysrsquo
Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources
dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et
contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee
161
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW
lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils
contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo
162
pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la
page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease
alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des
gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)
lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation
ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de
certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une
liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de
cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene
Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo
Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie
meacutetabolique apparaissant dans une page lsquoPDWEPrsquo
63 Comment naviguer dans PDWiki
Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la
recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des
pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur
163
gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct
sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est
de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de
recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les
pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au
sein de PDWiki en utilisant le formulaire de recherche
Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque
espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave
une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre
PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible
daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa
Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire
de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple
et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a
plusieurs avantages certains dentre eux sont
Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo
quand quelquun fait des modifications au niveau des pages de PDWiki
Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et
une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres
utilisateurs
Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages
qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106
7 DISCUSSION
Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes
modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm
2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves
Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de
Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans
cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base
de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des
bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire
agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur
lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les
plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de
106
httpwwwmediawikiorgwikiManualWatchlist
164
Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en
comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees
PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees
laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre
pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines
interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait
ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base
de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee
eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de
PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des
informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees
aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de
PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies
meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des
informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c
oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation
oxydative et la voie meacutetaboliques
Dautre part PseudomonasDW fournit des informations sur un ensemble plus
vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux
ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces
sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas
aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1
Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM
4166 et Pseudomonas chlororaphis
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
165
CONCLUSIONS ET PERSPECTIVES
166
Conclusions eacutet peacuterspeacutectiveacutes
Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante
bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3
comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon
rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur
mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile
et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P
syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain
Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des
infections pulmonaires mortelles chez les patients atteints de fibrose kystique
Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la
recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes
geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations
Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une
heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont
actuellement disponibles publiquement les types de donneacutees sont divers et les ressources
sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent
une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour
deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour
deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des
formats plus standard tels que XML (eg GenBank) A noter que les banques proposent
souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats
est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)
objet (eg Gus) ou semindashstructureacute (eg GenBank)
Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier
lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-
Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la
proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de
deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la
167
confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une
mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque
Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les
langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)
dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des
langages structureacutes tels que SQL (Genopage) ou OQL (Gus)
La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations
lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible
leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la
bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources
de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette
automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine
pour une recherche plus efficace des informations et une meilleure exploitation des
reacutesultats
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute
proposeacutees les approches navigationnel entrepocirct et meacutediateur
Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont
extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les
deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des
sources ce sont des portails et des meacutediateurs
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement
les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
168
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement
inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le
cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe
KHAOS de lrsquouniversiteacute de Malage
Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de
donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les
sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent
autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees
biologiques
Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des
sources de donneacutees biologiques et comportent une description des divers niveaux
drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des
solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme
navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine
entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une
inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine
biologique afin de proposer une solution drsquointeacutegration simple et flexible
Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre
des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin
drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee
1 REacuteSUMEacute DES CONTRIBUTIONS
Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne
fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur
exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se
sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent
169
principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que
possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers
et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos
travaux concernent plusieurs points
Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees
biologiques de Pseudomonas Sp
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas
requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de
donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi
proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees
heacuteteacuterogegravenes
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW
integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq
sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot
BRENDA et KEGG
Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les
donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie
importante dans les services de donneacutees qui fournissent des moyens pour interroger et
correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le
processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des
requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les
transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services
de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees
Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce
manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine
de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute
utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de
donneacutees un service pour une source de donneacutees
PseudomonasDW integravegre des sources de donneacutees offrant des informations
chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets
170
eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique
pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration
seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global
inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un
scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous
les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global
de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare
citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle
sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les
sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau
de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune
modification profonde
Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le
meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute
notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a
joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM
Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation
preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances
permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances
retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation
automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de
donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part
les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une
interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees
sont virtuellement acheveacutees en utilisant le meacutediateur
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
171
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune
installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave
certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige
une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse
surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la
plateforme Linux
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes
baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents
XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui
contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents
XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement
(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33
collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
172
Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques
pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons
incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il
affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des
gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est
un programme permettant de reacutealiser des alignements et des comparaisons locaux entre
deux seacutequences (nucleacuteiques ou proteacuteiques)
PseudomonasDW contient 170000 entreacutes et fournit des informations sur un
ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave
10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome
database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa
NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244
Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC
17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis
La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les
voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies
et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des
sections speacutecifiques pour les enzymes et les voies meacutetaboliques
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
2 OUVERTURE ET PISTES DE RECHERCHE
La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave
disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves
nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension
anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre
deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant
Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et
consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette
thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs
173
Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous
focalisant sur plusieurs points particuliers
Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW
Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance
accordeacutee agrave la source et sa qualiteacute estimeacutee
Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la
performance des donneacutees stockeacutees au niveau de PseudomonasDW
Automatiser la recherche de correspondance entre eacuteleacutements des
scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour
rendre lrsquoajout des nouvelles sources de donneacutees plus facile
Concernant lrsquointeacutegration des donneacutees
Inteacutegrer non seulement des sources de donneacutees mais aussi des services
Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres
anneacutees dans le domaine biologique et les perspectives offertes
semblent tregraves prometteuses
Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de
preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour
fouiller et comparer les donneacutees inteacutegreacutees
174
GLOSSAIRE
175
Glossaireacute
Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois
nucleacuteotides (codons) dans lrsquoARN
ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation
geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le
chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN
macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des
chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement
(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN
formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se
dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du
pheacutenomegravene de reacuteplication
Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions
hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus
complexe
Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences
codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation
syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les
entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit
les sources de donneacutees biologiques
API (Application Programming Interface) Interface pour langages de programmation
mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme
pour par exemple communiquer ou extraire des donneacutees
ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de
ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une
seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de
transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques
Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences
comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour
deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions
drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui
permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des
proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes
Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non
Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule
drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune
hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les
cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion
176
agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la
division cellulaire
Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros
serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et
unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture
est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees
Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte
deacutecisionnel deacutecentraliseacute
Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de
donneacutees exemple dimension temporelle dimension proteacuteique hellip
Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur
conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme
moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs
du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur
DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par
Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document
SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu
constitueacute par leurs sous-eacuteleacutements et leurs attributs
Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les
organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est
fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype
Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le
geacutenome nucleacuteaire
Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central
de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines
notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes
de reacutegulation
Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee
numeacuterique
FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et
William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le
programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines
Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et
porteur drsquoune information geacuteneacutetique
Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece
Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties
drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome
177
GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et
distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix
HTML (HyperText Markup Language) Langage de description de pages Web Un standard
initieacute par le W3C et compatible tous systegravemes
Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes
Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement
diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble
Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN
correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation
Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position
choisie)
Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme
drsquoun scheacutema de donneacutees
MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant
une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui
explique les performances Dans le second les jointures entre les tables de dimension et de fait sont
effectueacutees au moment de la requecircte
OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place
drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une
cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs
dimensions
Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin
OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de
lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant
Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave
linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le
deacuteclenchement de la transcription) et un ou plusieurs gegravenes
OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par
lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et
collections
Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports
baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration
systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau
(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de
maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec
celui-ci
178
Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique
(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique
notamment Un comportement particulier tout comme une combinaison de comportements
peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou
plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes
et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un
caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou
moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement
deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son
alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse
existe eacutegalement)
Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui
apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations
auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul
Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique
Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave
30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent
des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=
le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour
assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de
lrsquoinformation
Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une
comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un
support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou
ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees
compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus
ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit
syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le
type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et
quantifieacutes
Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser
les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le
principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave
CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot
contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN
tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-
repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du
meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De
maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment
correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de
caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents
dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des
suppresseurs de tumeurs
179
Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir
du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un
support meacutetallique et analyseacutees par spectromeacutetrie de masse
ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de
lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles
Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc
sous une forme plus deacutetailleacutee
Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe
concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine
informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des
informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux
neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies
Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides
amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN
(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage
drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit
fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes
Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie
par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides
(polymegraveres de nucleacuteotides)
Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet
indeacutependamment des plates-formes et des langages sur lesquelles elles reposent
SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels
permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du
domaine drsquoapplication
Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier
des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de
masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe
reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport
massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines
scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages
biologie meacutedecine
SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de
programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans
des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut
extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de
donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus
complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de
180
modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de
donneacutees et daccegraves
Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance
lrsquoidentification des formes vivantes et leur rangement dans une classification
Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome
URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur
uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant
lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour
adresser les ressources du World Wide Web telles que des documents HTML des images ou des
sons
Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet
Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct
et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux
ordinateurs et aux humains de travailler en plus eacutetroite collaboration
XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et
de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications
en diffeacuterents environnements hardware et software
Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements
dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un
sur-ensemble de XPath
181
ANNEXES
182
Anneacutexeacute 1 UML
La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996
UML est une norme de lOMG (Object Management Group) qui est un consortium des
principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive
homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune
seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants
UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent
ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre
UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des
systegravemes informatiques
Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur
Modegravele des classes capture la structure statique
Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages
Modegravele des eacutetats exprime le comportement dynamique des objets
Modegravele de deacuteploiement preacutecise la reacutepartition des processus
Modegravele de reacutealisation montre les uniteacutes de travail
Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant
correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de
diagrammes
Diagramme des classes structure statique il repreacutesente les classes
intervenant dans le systegraveme
Diagramme des eacutetatstransitions comportement dune classe en termes
deacutetats
Diagramme dobjets repreacutesentation des objets (des occurrences des
classes) et de leur relations ils correspondent agrave des diagrammes de
collaboration simplifieacutes (sans envoi de message)
183
Diagramme des paquetages un paquetage eacutetant un conteneur logique
permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le
Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages
crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions
Diagramme de structure composite permet de deacutecrire sous forme de
boicircte blanche les relations entre composants dune classe
Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs
interactions
Diagramme de communication repreacutesentation simplifieacutee dun diagramme
de seacutequence se concentrant sur les eacutechanges de messages entre les objets
Diagramme global dinteraction permet de deacutecrire les enchaicircnements
possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de
diagrammes de seacutequences
Diagramme de temps permet de deacutecrire les variations dune donneacutee au
cours du temps
Diagramme des cas dutilisation il permet didentifier les possibiliteacutes
dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les
fonctionnaliteacutes que doit fournir le systegraveme
Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration
en termes dactions
Diagramme de composants repreacutesentation des composants physiques
dune application
Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les
steacutereacuteotypes des classes ou des packages
Diagramme de deacuteploiement repreacutesentation du deacuteploiement des
composants sur les dispositifs mateacuteriels
184
Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes
Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la
premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de
Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute
dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant
devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une
deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante
Une base de donneacutees XML native deacutefinit un modegravele logique pour un document
XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au
minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du
document
Une base de donneacutees XML native gegravere le document XML comme une uniteacute
fondamentale de stockage comme une ligne dans une table relationnelle
Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent
particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique
orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers
compresseacutes indexeacutes
La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de
donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain
nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de
donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de
lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc
La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale
dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible
qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents
lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des
bases de donneacutees XML actuelles
La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas
important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de
185
donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest
pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait
envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees
XML native comme eXist lrsquoa fait agrave ses deacutebuts
Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement
pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les
transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des
langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc
parfaitement dans notre approche entiegraverement baseacutee sur XML
186
Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute
Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de
donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate
Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute
sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace
drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience
drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel
Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage
propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves
actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est
compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un
processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une
application
eXist fournit un stockage sans scheacutema des documents XML dans des collections
hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des
documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs
peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents
contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement
de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification
rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-
descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de
chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement
les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de
documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions
La base de donneacutees convient bien aux applications manipulant des petites ou larges
collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute
conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant
lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes
XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath
187
et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre
autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres
Architecture drsquoeXist
eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement
agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents
XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale
Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement
seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des
courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et
les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques
comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles
possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un
ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et
XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du
cœur drsquoeXist
eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut
fonctionner comme un processus serveur autonome fournissant des interfaces http et
XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles
peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut
fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-
RPC SOAP109 et WebDAV110 sont fournis par les servlets
Figure 53 Architecture deXist copy Wolfgang Meier
107
httpxmlrpcscriptingcomspechtml 108
httpxmldb-orgsourceforgenetxapixapi-drafthtml 109
httpwwww3org2000xpGroup 110
httpwwwietforgrfcrfc2518txt
188
BIBLIOGRAPHIE
189
Bibliographieacute
Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125
Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary
Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442
Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410
Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381
Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29
Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress
Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press
Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520
Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155
Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE
Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178
Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37
Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15
Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863
Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314
190
Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104
Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333
Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille
Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7
Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53
Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet
Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons
Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192
Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates
Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences
Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193
Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93
Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69
Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis
Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148
Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306
Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie
Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592
Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74
191
Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87
Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345
Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979
Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy
Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique
Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531
Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572
Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53
Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822
Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc
Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432
Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20
Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57
Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128
Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68
Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469
Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris
Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73
192
Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research
Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8
Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788
Gautier C (1981) Nucleic acid sequences handbook Praeger
Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523
Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance
Griffith A (2005) Java XML and the JAXP In Wiley (ed)
Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928
Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174
Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264
Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153
Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511
Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9
Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119
Harold ER and Means WS (2004) XML in a Nutshell OReilly Media
Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA
Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915
Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60
Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190
Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448
Hunter J (2003) X is for Query Oracle Magazine
Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York
Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)
193
Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541
Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology
Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)
Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30
Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357
Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280
Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59
Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169
Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley
Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337
Kimball R (2002) data warehouse toolkit
Kimball R (2003) The Bottom-Up Misnomer
King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18
Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper
Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web
Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597
Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283
Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138
Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni
Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170
194
Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268
Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441
List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215
MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA
Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562
Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144
Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348
Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105
Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381
Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378
Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755
McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)
McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587
Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34
Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376
Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477
Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537
Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall
Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65
195
Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269
Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga
Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622
Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230
Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2
Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846
Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125
Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350
Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163
Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171
Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)
Rehm B (2009) Pseudomonas Wiley-VCH
Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557
Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996
Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149
Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84
Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010
Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696
Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236
Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243
Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871
196
Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York
Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186
Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188
Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141
Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298
Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73
Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110
Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276
Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298
Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis
Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717
Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49
Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488
Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6
Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150
Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373
Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33
197
Reacute feacute reacutenceacutes Inteacuterneacutet
198
Reacute feacute reacutenceacutes Inteacuterneacutet
(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml
AmiGO httpamigogeneontologyorgcgi-binamigogocgi
Apache Server httphttpdapacheorg
ArrayExpress httpwwwebiacukarrayexpress
ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm
Axis httpwsapacheorgaxisoverviewhtml
BioCyc httpbiocycorg
BioGrid httpthebiogridorg
Bioperl httpwwwbioperlorgwikiMain_Page
biosql httpwwwbiosqlorgwikiMain_Page
Blast httpblastncbinlmnihgovBlastcgi
Bots httpenwikipediaorgwikiWikipediaBots
BRENDA httpwwwbrenda-enzymesinfo
Chado httpgmodorgwikiChado_-_Getting_Started
ChEBI httpwwwebiacukchebi
CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
core httpdublincoreorg
CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast
dbEST httpwwwncbinlmnihgovdbEST
dbSNP httpwwwncbinlmnihgovprojectsSNP
DDBJ httpwwwddbjnigacjp
Dublin Core httpdublincoreorg
EBI httpwwwebiacuk
EcoCyc httpecocycorg
EMBL httpwwwemblde
EMBO httpwwwemboorg
ensEMBL httpwwwensemblorgindexhtml
Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric
Entrez httpwwwncbinlmnihgovsitesgquery
EPConDB httpwwwcbilupenneduepcondb42
eXist httpexistsourceforgenet
199
ExPASy httpexpasyorg
ExPASy httpexpasyorg
Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix
FASTA httpwwwebiacukToolssssfasta
Flybase httpflybaseorg
Garlic httpwwwalmadenibmcomcsgarlic
Gbrowse httpgmodorgwikiGBrowse
GDB httpgdbwwwgdborg
Genbank httpwwwncbinlmnihgovnuccore
GeneCards httpwwwgenecardsorg
GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame
GEO httpwwwncbinlmnihgovgeo
GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
GFF httpgmodorgwikiGFF
GO httpwwwgeneontologyorg
HGNC httpwwwgenenamesorg
IMG httpimgjgidoegov
inmon httpenwikipediaorgwikiBill_Inmon
InterPro httpwwwebiacukinterpro
Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml
JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
jena httpjenaapacheorg
Jetty httpjettycodehausorgjetty
JWBF httpjwbfsourceforgenet
KEGG httpwwwgenomejpkegg
LION Bioscience AG httpwwwbiochipnetcomnode1561
MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings
Medline httpwwwmedlinecom
MeSH httpwwwnlmnihgovmesh
MetaCyc httpmetacycorg
MGI httpwwwinformaticsjaxorg
Microbes Online httpwwwmicrobesonlineorg
MIPS httpwwwhelmholtz-muenchendeenibis
MySQL httpwwwmysqlcom
NCBI httpwwwncbinlmnihgov
NIH httpwwwnihgov
OBO httpwwwobofoundryorg
ODMG wwwodmgorg
OMIM httpwwwomimorg
ORACLE httpwwworaclecomindexhtml
OWL httpwwww3orgTR2009WD-owl2-primer-20090611
PDB httpwwwrcsborgpdbhomehomedo
200
peer-review literature httpenwikipediaorgwikiPeer_review
perl httpdevperlorgperl5
Pfam httppfamsangeracuk
PhosphGrid httpwwwphosphogridorg
Plasmodb httpplasmodborgplasmo
ProDom httpprodomprabifrprodomcurrenthtmlhomephp
PRODORIC httpwwwprodoricde
Proteacutegeacute httpprotegestanfordedu
Pseudomonas Genome Database httpwwwpseudomonascom
Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg
PseudomonasDW httpwwwpseudomonasdwkhaosumaes
PubMed httpwwwncbinlmnihgovpubmed
Qexo httpwwwxmlcompuba20030611qexohtml
RDF httpwwww3orgTRrdf-concepts
RDFS httpwwww3orgTRrdf-schema
RefSeq httpwwwncbinlmnihgovRefSeq
RiboWeb httphelix-webstanfordeduribowebhtml
SGD database httpwwwyeastgenomeorg
SRS httpsrsebiacuk
Tomcat httptomcatapacheorg
UML httpwwwumlorg
UMLS httpwwwnlmnihgovresearchumls
UniGene httpwwwncbinlmnihgovunigene
UniProt httpwwwuniprotorg
W3C httpwwww3org
watchlist httpwwwmediawikiorgwikiManualWatchlist
WebDAV httpwwwietforgrfcrfc2518txt
Wikipedia httpwwwwikipediaorg
xBASE httpwwwxbaseacuk
XML httpwwww3schoolscomxml
XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml
XML-RPC httpxmlrpcscriptingcomspechtml
XML-RPC SOAP httpwwww3org2000xpGroup
ZFIN httpzfinorg
Une approche hybride pour une inte gration se mantique des donne es
biologiques de Pseudomonas
Remerciement
1
Reacute sumeacute
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Leur faciliteacute de
culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de Pseudomonas
ont fait de ce genre un foyer ideacuteal pour la recherche scientifique Lrsquoimportance biologique fournie
par les Pseudomonas dans le domaine de la recherche a donneacute naissance agrave un grand nombre
drsquoinformations Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a
conduit agrave une heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante Aujourdrsquohui lrsquoun des grands deacutefis
de la bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources de
donneacutees heacuteteacuterogegravenes via des proceacutedures automatiques Dans ce cadre notre travail a pour finaliteacute la
reacutealisation drsquoun environnement inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce
travail entre dans le cadre drsquoune collaboration scientifique entre notre laboratoire de recherche
LABIPHABE et le groupe KHAOS de lrsquouniversiteacute de Malage
Lrsquooriginaliteacute de notre travail est de combiner lrsquoapproche mateacuterialiseacutee (entrepocirct de donneacutees) et
lrsquoapproche virtuelle (meacutediateur) pour profiter de ces avantages agrave la fois Lrsquoentrepocirct va permettre
lrsquoaccegraves direct et rapide aux donneacutees alors que le meacutediateur permettra lrsquointeacutegration de diffeacuterentes
sources de donneacutees et aussi il permettra la mise agrave jour des donneacutees en cas de besoin Notre entrepocirct
de donneacutees nommeacute PseudomonasDW integravegre les donneacutees biologiques stockeacutees dans cinq bases de
donneacutees diffeacuterentes accessibles via le Web Genbank PRODORIC UniProt KEGG et
BRENDA PseudomonasDW est un entrepocirct de donneacutees semi-structureacute pour lrsquointeacutegration
seacutemantique des donneacutees du genre Pseudomonas Il a eacuteteacute conccedilu dans le but de reacutepondre aux besoins
des biologistes en matiegravere de donneacutees geacutenomiques proteacuteomiques et meacutetaboliques Lrsquointeacutegration des
donneacutees agrave partir des sources de donneacutees heacuteteacuterogegravenes repreacutesente la consolidation des donneacutees
heacuteteacuterogegravenes conduisant agrave la reproduction des nouvelles donneacutees ne peuvent pas ecirctre obtenues agrave
partir drsquoune seules source
Mot cleacutes Pseudomonas inteacutegration de donneacutees entrepocirct meacutediateur approche hybride
PseudomonasDW
2
Reacutemeacutercieacutemeacutents
3
Reacutemeacutercieacutemeacutents
Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani
pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute
et aideacute tout au long de ses anneacutees de thegravese
Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-
encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de
recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches
Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger
mon travail
Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe
khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton
preacutecieux soutien
A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute
leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont
teacutemoigneacutes
Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec
une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton
encouragement
Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes
compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave
lrsquoavancement de ce travail
Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere
Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma
grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille
Briache
Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail
4
Sommaireacute
5
Sommaireacute
Introduction geacuteneacuterale 18
1 Problematique et motivation 19
2 CADRE ET BUTS DU TRAVAIL 23
3 Les pseudomonas 24
31 Caracteres geacuteneacutereaux 24
32 Pouvoir pathogegravene 26
33 Lutte biologique 27
4 Structure de document 28
Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
1 Introduction 31
2 Eacutetat des sources 32
21 Varieacuteteacute des sources biologiques 33
22 Autonomie et capaciteacutes drsquointerrogation 35
3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37
31 Diversiteacute syntaxique 37
32 Diversiteacute seacutemantique 38
33 Diversiteacute des langages de requecircte 39
34 Diversiteacute des services 39
4 Eleacutements de standardisation 40
41 Format standards et nomenclatures 40
42 Ontologies 41
43 Meacutetadonneacutees 42
44 Langages et formalismes 43
Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46
1 Introduction 47
2 points de variation entre les approches drsquointeacutegration 49
21 Degreacute drsquointeacutegration 49
211 Approche agrave couplage serreacute 49
6
212 Approche agrave couplage lacircche 50
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50
221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50
222 Types drsquointeacutegrations seacutemantique 51
223 Approches ascendante et descendante 51
23 Mateacuterialisation des reacutesultats 52
24 Accegraves aux donneacutees 52
3 approches drsquointeacutegration en bioinformatique 52
31 Approche non mateacuterialiseacutee 53
311 Le systegraveme meacutediateur 53
312 Le systegraveme navigationnel 61
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70
321 Deacutefinition et Architecture 70
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74
324 Les modegraveles des entrepocircts de donneacutees 75
325 Adeacutequation Problegravemes rencontreacutes 81
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82
4 Discussion 86
Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de
Pseudomonas sp 90
1 Introduction 91
2 Vue Global sur le systegraveme PseudomonasDW 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94
211 Bases de donneacutees geacutenomique et proteacuteique 95
212 Bases de donneacutees meacutetaboliques 96
213 Bases de donneacutees Enzymatique 97
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101
31 Scheacutemas de source 101
32 Services de donneacutees 102
321 Architecture du service de donneacutees dans PseudmonasDW 103
7
322 Impleacutementation du service de donneacutees dans PseudmonasDW 104
33 Scheacutema Inteacutegrateur du PseudmonasDW 107
34 Correspondances seacutemantiques entre les scheacutemas 110
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113
36 SB-KOM System Biology Khaos Ontology-based Mediator 115
4 Processus ETL dans Pseudomonasdw 117
5 Discussion et conclusion 123
Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp
126
1 Introduction 127
2 MODEacuteLISATION de PseudomonasDW 129
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129
22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133
23 Diagramme de classes du systegraveme PseudomonasDW 135
3 IMPLEMENTATION DE PSEUDOMONASDW 135
31 Organisation des bases de donneacutees de PseudomonasDW 136
32 Impleacutementation des bases de donneacutees de PseudomonasDW 139
4 INTERFACE WEB DE PSEUDOMONASDW 141
41 Les Moteurs de rechercheacute dans PseudomonasDW 141
42 Les entreacutees de Pseudomonas DW 144
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147
511 GBrowse Vue geacuteneacuterale 149
512 Installation de GBrowse 149
513 Creacuteation et peuplement des bases de donneacutees MySQL 150
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153
521 Blast Vue geacuteneacuterale 153
522 La fonctionnaliteacute du Blast 154
6 PDWiki 157
61 Geacuteneacuteraliteacute sur les Wikis biologiques 158
62 PDWiki Infrastructure et contenue 159
63 Comment naviguer dans PDWiki 162
8
7 DISCUSSION 163
Conclusions et perspectives 165
1 Reacutesumeacute des contributions 168
2 Ouverture et pistes de recherche 172
Glossaire 174
Annexes 181
Bibliographie 188
Reacutefeacuterences Internet 197
9
INDEX DES FIGURES ET DES TABLES
FIGURES
Figure 1 Architecture dun systegraveme meacutediateur 54
Figure 2 Lapproche GAV (Global As View) 56
Figure 3 Lapproche LAV (Loacl As View) 56
Figure 4 Approche GLAV 57
Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62
Figure 6 Graphe de liens entre les sources 63
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65
Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67
Figure 9 Architecture de BioGuide 69
Figure 10 Architecture dun entrepocirct de donneacutees 71
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de
donneacutees 73
Figure 13 Exemple de cube de donneacutees 76
Figure 14 Modegravele en eacutetoile 78
Figure 15 modegravele en flocon 78
Figure 16 Modegravele en constellation 78
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le
systegraveme PseudmonesDW 103
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108
10
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre
conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux
relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et
les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et
lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la
formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet
sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles
de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en
haut des eacuteleacutements de lontologie en rouge 118
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc
contient des informations pour acceacuteder aux services de donneacutees 119
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat
final de leacutetape ETL au sein de systegraveme PseudomonasDW 121
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction
de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de
chargement de donneacutees au sei de PseudmonasDW 122
Figure 33 Le diagramme de cas dutilisation de lutilisateur 131
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132
Figure 35 Le diagramme de cas dutilisation de ladministrateur 133
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134
Figure 37 Le diagramme conceptuel de PseudomonasDW 137
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A
gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW
A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas
aeruginosa PAO1 139
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees
au niveau de PseudomonasDW 140
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne
la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de
seacutelectionner un champ speacutecifique de recherche 142
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections
Organism et Gene de lentreacutee PAE00524 145
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154
11
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles
lutilisateur peut choisir 155
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences
indeacutependamment des bases de donneacutees de PseudomonasDW 155
Figure50 Exemple de reacutesultat de Blast 157
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir
et annoter lentreacutee PAE00524 de PseudomonasDW 161
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de
PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162
Figure 53 Architecture deXist copy Wolfgang Meier 187
TABLES
Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54
Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117
Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130
Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131
Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140
12
ABREVIATION
13
ABREVIATION
ADN Acide Deacutesoxyribonucleacuteique
API Application Programming Interface
ASN Abstract Syntax Notation
BACIIS Biological And Chemical Information Integration System
BioGRID Biological General Repository for Interaction Datasets
BLAST Basic Local Alignment Search Tool
CGH Comparative genomic hybridization
ChEBI Chemical Entities of Biological Interest
CMR Comprehensive Microbial Resource
CPAN Reacuteseau Complet drsquoArchives Perl
CPL Collection Programming Language
CSS Cascading Style Sheets
CSUQ Computer System Usability Questionnaire
CYGD Comprehensive Yeast Genome Database
DAML DARPA Agent Markup Language
dbEST Expressed Sequences Tags databases
DDBJ DNA Data Bank of Japan
DTD Document Type Definition
EBI European Bioinformatics Institute
EcoCyc Encyclopedia of Escherichia coli
EMBL European Molecular Biology Laboratory
EMBO European Molecular Biology Laboratory
EPG Entity Path Generator
ETL Extraction transformation and loading
ExPASy (Expert Protein Analysis System
FTP File Transfer Protocol
GAM Generic Annotation Management
GAV Global As View
GDB Human Genome Databases
GEDAW Gene Expression DAta Warehouse
GenMapper Genetic Mapper
GEO Gene Expression Omnibus
GeWare Gene Expression Warehouse
14
GFF General Feature Format
GIMS Genome Information Management System
GLAV Generalized Local As View
GMOD Generic Modele Organisme Database project
GNU GNUs Not UNIX
GO Gene Ontology
GPL General Public License
GRAIL GALEN Representation and Integration Language
GUS Genomics Unified Schema
HGNC Human Gene Organisation
HGP Human Genome Project
HGP Human Genome Project
HTML HyperText Markup Language
HTTP Hypertext Transfer Protocol
IBM International Business Machines
ICARUS Interpreter of Commands And Recursive Syntax
IMG Integrated Microbial Genomes
INSDC Internatinal Nucleotide Sequence Database Collaboration
INSERM Institut National de la Santeacute et de la recherche meacutedicale
IRISA Institut de Recherche en Informatique et Systegravemes
Aleacuteatoires
JAXB Java Architecture for XML Binding
JAXP Java API for XML Processing
JDBC Java Database Connectivity
K2MDL K2 Mediator Definition Language
KEGG Kyoto Encyclopedia of Genes and Genomes
KOMF Khaos Ontology-based Mediation Framework
LAV Local As View
MCM Modegravele Conceptuel Multidimensionnel
MeSH Medical Subject Headings
MGD Mouse Genome Database
MGI Mouse Genome Informatics
MIPS Munich Information Center for Protein Sequences
MOLAP Multidimensionnal On Line Analytical Processing
NAR Nucleic Acids Research
NBRF National Biomedical Research Foundation
NCBI National Center for Biotechnology Information
15
NIH National Institutes of Health
NXD Native XML Database
OBO Open Biomedical Ontologies
ODL Object Definition Language
ODMG Object Data Management Group
OIL Ontology Inference Layer
OLAP On Line Analytical Processing
OLTP On Line Transactionnel Processing
OMG Object Management Group
OMIM Online Mendelian Inheritance in Man
OOLAP Object On-Line Analytical Processing
OQL Object Query Language
OWL Web Ontology Language
PDP Protein Data Bank
Pfam Protein Famili
PHP Hypertext Preprocessor
PIR Protein Identification Ressource
PPI Protein-Protein Interaction
PQL Program Query Language
PRODORIC PROcariotIC Database Of Gene-Regulation
QUIS Questionnaire for User Interface Satisfaction
RDF Resource Description Framework
RDFS Resource Description Framework Schema
ROLAP Relational On-Line Analytical Processing
SB-KOM System Biology Khaos Ontology-based Mediator
SEPT Source Entity Path Translator
SGBD Systegraveme de gestion de base de donneacutees
SGD Saccharomyces Genome Database
SKB Source Knowledge Base
SOAP Simple Object Access Protocol
SOFG Standards and Ontologies for Functional Genomics
SQL Structured Query Language
SRS Sequence Retrival System
SUS System Usability Scale
Tambis Transparent Access to Multiple Bioinformatic
InformationSources
TaO Tambis Ontology
16
UCL Universiteacute catholique de Louvain
UML Unified Modelling Language
UMLS Unified Medical Language System
UniProt Universal Protein Resource
URL Uniform Resource Locator
USA United States of America
W3C World Wide Web Consortium
WSDL Web Services Description Language
XML Extensible Markup Language
XSLT Extensible Stylesheet Language Transformations
ZFIN Zebrafish Information Network
17
NOTE AU LECTEUR
Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire
18
INTRODUCTION GENERALE
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute
19
Introduction geacute neacute raleacute
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au
domaineacute biologiqueacute
Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere
exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des
sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au
plus grand nombre ouvrant ainsi de belles perspectives en recherche
La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant
les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation
diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse
du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees
diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de
reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees
heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte
Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte
La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs
disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la
complexiteacute du monde vivant (Blagosklonny and Pardee 2002)
Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de
diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques
implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de
donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature
1 PROBLEMATIQUE ET MOTIVATION
Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les
laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute
20
des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de
donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel
Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats
La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas
envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la
documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de
consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter
les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers
plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML
(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les
langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery
(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont
parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur
Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui
avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun
(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes
incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige
lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees
enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par
le biais de formulaires Web ou par une connexion directe au SGBD
De nos jours la masse formidable de donneacutees produites par les centres de recherche
atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de
systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb
2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette
accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune
science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee
2005)
Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des
donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute
particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces
sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare
de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige
leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du
systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise
optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La
1 httpwwwncbinlmnihgovnuccore
2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-
mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
21
majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des
serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent
montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge
Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne
concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct
lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la
preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres
deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-
Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de
logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans
compensation financiegravere5
Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave
rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee
possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux
problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin
dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes
eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario
typique reacutesolu manuellement
Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les
voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee
laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe
le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo
Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape
consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees
Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu
dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par
exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees
KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations
fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue
qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous
auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible
nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave
geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens
hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml
4 httpwwwmysqlcom
5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes
6 httpwwwbrenda-enzymesinfo
7 httpwwwgenomejpkegg
22
paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que
GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes
dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que
tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention
humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne
pas dire inexistante
Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages
de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des
solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface
unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le
cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles
(architecture de meacutediation)
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les
donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des
hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J
and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque
base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace
physique occupeacute serait trop important tant par les donneacutees que la conservation de leur
traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de
fonctionnement du systegraveme
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
23
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans
certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de
transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees
2 CADRE ET BUTS DU TRAVAIL
Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il
srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions
moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux
drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur
apparition croissante dans la litteacuterature scientifique
Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette
masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles
connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet
comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le
Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis
quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer
lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte
drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double
Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces
donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une
proteacuteine donneacutee
Fournir une plateforme complegravete permettant drsquoorienter la recherche par
extraction de nouvelles connaissances
La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en
combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la
mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine
biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre
24
groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de
Malaga
La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees
biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets
drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-
organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees
PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les
enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki
scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la
communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations
relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans
PseudomonasDW
3 LES PSEUDOMONAS
31 Caracteres geacuteneacutereaux
Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al
2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes
Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec
comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le
nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles
sont oxygegravene (+)
Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes
comme source de carbone et drsquoeacutenergie
Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux
antibiotiques et aux antiseptiques
A) Morphologie et structure
Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La
mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour
les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en
deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture
25
B) Croissance et nutrition
De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la
tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes
La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont
capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de
carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les
auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats
carboneacutes utilisables comme source drsquoeacutenergie pour la croissance
C) Caractegraveres physiologiques
Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de
conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de
culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle
tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip
D) Habita
Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol
humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et
se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels
surtout srsquoils sont humides
E) Morphologie et caractegraveres culturaux
Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune
pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de
cette bacteacuterie
Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC
ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la
production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et
non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski
convient pour la culture
F) Aspects de colonies
Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut
ecirctre observeacutee
Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un
contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect
meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave
lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes
Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord
circulaire reacutegulier
26
Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces
colonies se rencontrent presque speacutecifiquement dans des infections chroniques
urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un
polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo
G) Production de pigments
Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification
Ils sont fluorescents ou non fluorescents
Pyoverdine
Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en
eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est
inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer
Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes
fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas
aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de
nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un
moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer
et de le transporte
Pyocyanine
Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la
seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves
drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en
milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la
chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na
Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches
sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des
malades traiteacutes aux antibiotiques
Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent
de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le
diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P
lemonieri P stutzeri et P mendocina
32 Pouvoir pathogegravene
Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme
pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et
27
cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle
peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle
comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par
lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave
certains antibiotiques courants
Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble
laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique
de mauvaises conditions de plantation une autre maladie des blessures un systegraveme
racinaire contraint ou asphyxieacute
Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme
agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de
Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux
eacutetudieacutee
33 Lutte biologique
De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de
biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la
biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par
des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol
ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches
mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour
deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les
performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres
bacteacuteries
Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute
microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les
genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement
sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui
colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent
particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique
Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de
population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient
sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres
rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des
exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave
isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-
A-Woeng et al 2001)
28
Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues
depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans
certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents
phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs
meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de
sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition
du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela
peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la
maladie
4 STRUCTURE DE DOCUMENT
Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les
diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une
description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources
Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions
majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et
montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de
la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques
des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)
qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de
donneacutees originales jusqursquoagrave PseudomonasDW
Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les
espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les
phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet
aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous
deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans
PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur
drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW
Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs
29
Preacutemieacute reacute Partieacute
30
CHAPITRE 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
31
Chapitre 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
Sommaire
1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31
2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32
21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33
22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35
3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38
33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41
43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42
44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43
1 INTRODUCTION
Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif
est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de
solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees
Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80
sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier
1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute
une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise
en place de systegravemes de stockage des donneacutees
32
En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de
seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute
ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos
(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees
relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration
entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest
eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour
proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui
accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques
Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere
sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource
(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve
degraves 1986
2 EacuteTAT DES SOURCES
Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web
eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases
Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus
importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and
Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de
1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu
le jour
On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les
dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de
ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre
source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le
Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)
quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne
leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont
vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces
agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute
stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute
8 httpwwwemboorg
9 httpwwwnihgov
10 httpwwwncbinlmnihgov
11 httpwwwddbjnigacjp
12 httpwwwncbinlmnihgovgeo
13 httpwwwebiacukarrayexpress
33
creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le
deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement
analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)
drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les
reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de
donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements
multiples
La sous-section suivante dresse un rapide panorama drsquoun certain nombre de
sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web
21 Varieacuteteacute des sources biologiques
Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La
classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave
lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees
qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)
classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes
(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de
donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des
travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources
suivantes
Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du
domaine meacutedical Medline16 PubMed17
Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en
existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les
seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank
(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui
contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits
les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de
donneacutees sont ArrayExpress (Europe) et GEO (USA)
Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees
disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement
chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par
14
httpblastncbinlmnihgovBlastcgi 15
httppfamsangeracuk 16
httpwwwmedlinecom 17
httpwwwncbinlmnihgovpubmed
34
un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou
GEOArrayExpress) dans un certain format Toute publication scientifique
soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de
puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification
GenBankEMBLDDBJ (respectivement GEOArrayExpress)
Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne
sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des
seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la
soumission
Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces
sources contiennent des informations nettoyeacutees (au moins automatiquement
comme la suppression de doublons) et parfois mecircme valideacutees manuellement par
des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires
est de partir de donneacutees issues des sources primaires pour proposer des
informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations
compleacutementaires
Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont
deux exemples de sources secondaires qui proposent de regrouper les fiches
GenBank La premiegravere propose une version non redondante de GenBank elle est
obtenue en utilisant des techniques de regroupement semi-automatiques alors que
la seconde construit de faccedilon automatique des clusters de seacutequences
Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement
du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun
ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un
ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans
lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les
reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de
publications et associeacutes agrave un pheacutenotype (une maladie) donneacute
Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources
au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage
(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes
automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils
bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources
18
httpwwwncbinlmnihgovRefSeq 19
httpwwwncbinlmnihgovunigene 20
httpwwwncbinlmnihgov 21
httpwwwomimorg 22
httpprodomprabifrprodomcurrenthtmlhomephp
35
sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des
reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees
Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees
sur une famille de fonctions biologiques Par exemple la source BRENDA
est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique
sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources
FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database
SGD24 (deacutedieacutee agrave la levure)
Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de
fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes
dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve
dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de
synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes
humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt
(Consortium 2010) GenBank)
22 Autonomie et capaciteacutes drsquointerrogation
La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement
autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait
libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent
souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en
faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles
reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source
pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude
du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit
prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution
afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci
lors de lrsquoexeacutecution des requecirctes
Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web
est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet
eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de
cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les
accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client
23
httpflybaseorg 24
httpwwwyeastgenomeorg 25
httpwwwgenecardsorg
36
FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par
exemple) ou plus reacutecemment encore via des appels de services Web Concernant les
interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui
suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces
qursquoil devra utiliser
Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent
tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas
lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont
disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent
soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il
nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la
puissance de calcul drsquoune source par une requecircte trop complexe
soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive
drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source
Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme
drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et
via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs
sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus
expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL
Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais
aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)
ou Fasta26 (Lipman and Pearson 1985)
Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs
repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation
ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les
proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre
automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de
faciliteacute en fonction de lrsquoapproche suivie
26
httpwwwebiacukToolssssfasta
37
3 DIFFICULTES RENCONTREES LORS DE
LrsquoINTERROGATION DES SOURCES
Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web
nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de
donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout
une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements
effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au
cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble
de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi
que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux
des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements
En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele
de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a
deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati
2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses
approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La
taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation
mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des
probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al
2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques
qui rendent leur interrogation complexe et fastidieuse
31 Diversiteacute syntaxique
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les
formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees
soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson
1985) soit du XML du HTML ou des SGBD relationnels ou objets
Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase
drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le
deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du
langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin
2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et
al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave
reacutesoudre
27
httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
38
32 Diversiteacute seacutemantique
Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui
sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus
Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une
entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine
qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene
codant pour chaque proteacuteine est alors vu comme un simple attribut Au
contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et
crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le
domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine
(dans PDB29)
Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee
nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par
exemple UniProt propose des informations sur des proteacuteines issues de
diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles
ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire
chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune
des proteacuteines de la levure
Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une
mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par
exemple selon les sources une proteacuteine est une isoforme particuliegravere
(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes
(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui
peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou
incluant les introns
La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais
qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des
modegraveles des formats et des scheacutemas diffeacuterents
Diversiteacute des informations au niveau des instances
Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son
expertise agrave travers une fiche Il peut arriver que selon les sources une
mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes
Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance
associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est
peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe
drsquoannotateurs Certains annotateurs emploieront le terme de putative 28
httpwwwebiacukinterpro 29
httpwwwrcsborgpdbhomehomedo
39
pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront
le terme hypothetical Drsquoautres encore ne preacuteciseront rien
Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent
plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme
proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les
sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait
plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes
diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas
en preacutesence drsquohomonymie
Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi
ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de
vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie
les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable
puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de
la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees
33 Diversiteacute des langages de requecircte
Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le
langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)
est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases
de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la
source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin
et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes
OQL sur leur scheacutema
34 Diversiteacute des services
Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees
(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave
une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers
ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre
lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par
exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des
heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de
30
httpwwwensemblorgindexhtml
40
donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences
nucleacuteotidiques comme BlastN)
4 ELEMENTS DE STANDARDISATION
Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute
proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms
des concepts sous-jacents aux donneacutees des sources et des noms des relations entre
ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre
experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le
second type de solution est plus geacuteneacuterique il comprend la construction de cadres de
repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que
lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de
concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de
solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees
contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees
41 Format standards et nomenclatures
Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de
terminologies standards pour deacutecrire les donneacutees
Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir
des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies
pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un
workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu
annuellement et regroupe les principaux acteurs sur cette probleacutematique
Le souci de standardisation de lrsquoattribution de noms est pris en compte par le
consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature
Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences
31
httpwwwgenenamesorg
41
42 Ontologies
Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de
faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la
construction de nombreuses ontologies
Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la
philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions
informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune
conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus
souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie
cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a
donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces
concepts
Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine
biologique
Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui
vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques
speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un
organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement
consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants
cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la
communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres
ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie
MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)
Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open
Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en
ligne dont voici un extrait
Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces
particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du
Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish
Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on
distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour
32
httpwwwgeneontologyorg 33
httpwwwobofoundryorg 34
httpwwwinformaticsjaxorg 35
httpzfinorg 36
httpwwwnlmnihgovresearchumls
42
les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject
Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine
Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al
2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39
(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un
dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave
lrsquoEBI41
Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et
al 1997) propose un format de donneacutees une nomenclature et un cadre XML
(RNA-ML) (Waugh et al 2002)
Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)
nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN
et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies
se preacutesentent sous la forme de graphes non cycliques
43 Meacutetadonneacutees
Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil
srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave
une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee
permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation
et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples
de meacutetadonneacutees
lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification
des commentaires exprimant un point de vue sur la ressource
le scheacutema des donneacutees les index associeacutes
des informations de qualiteacute relatives au scheacutema de la ressource
des informations statistiques sur les donneacutees
la speacutecification la signature drsquoun programme
37
httpwwwnlmnihgovmesh 38
httpecocycorg 39
httpmetacycorg 40
httpwwwebiacukchebi 41
httpwwwebiacuk 42
httphelix-webstanfordeduribowebhtml
43
Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute
proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la
description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere
geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la
description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements
(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en
cateacutegories
Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description
(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant
le contenu de la ressource titre sujet ou codes de classement description
source langue relation avec une autre ressource couverture spatiale et temporelle
la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation
la mateacuterialisation de la ressource cycle de vie type format identificateur
44 Langages et formalismes
Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont
deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont
XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du
W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de
donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre
explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou
des applications
Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun
document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en
particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la
grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux
formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document
Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee
en XML
Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les
eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt
43
httpdublincoreorg 44
httpwwww3org
44
De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois
des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique
drsquoeacuteleacutements agrave une structure en graphe
Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un
document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire
deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide
XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il
assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML
crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension
seacutemantique
RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C
pour la description des sources sur le Web Les descriptions se font en exprimant des
proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave
deacutefinir les termes et les relations qui interviennent dans ces descriptions
RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des
meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces
meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes
de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le
Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme
drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en
acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre
une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut
ecirctre reacutealiseacutee et faciliteacutee
Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces
concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des
ontologies
OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute
par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les
applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave
preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML
RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle
OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la
disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus
riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees
45
httpwwww3orgTRrdf-concepts 46
httpwwww3orgTRrdf-schema 47
httpwwww3orgTR2009WD-owl2-primer-20090611
45
OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL
OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une
hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou
taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des
constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux
tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes
de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de
restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes
mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique
de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider
au raisonnement sur une base de connaissances OWL Full permet un maximum
drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe
proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du
vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL
pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de
connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description
46
CHAPITRE 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
47
Chapitre 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47
2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50
23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53
32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70
4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86
1 INTRODUCTION
Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les
questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions
au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes
drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave
plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces
systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and
Kambhampati 2004)
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute
proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur
48
Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des
autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire
communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque
permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire
n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les
systegravemes (Sheth and Larson 1990)
Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune
base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les
applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement
directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)
Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration
drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes
sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont
accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des
sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de
requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources
disponibles
Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves
reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees
biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures
comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees
mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans
le mecircme temps
Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre
les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de
lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les
donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches
sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la
lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes
Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave
ecirctre exhaustifs
49
2 POINTS DE VARIATION ENTRE LES APPROCHES
DrsquoINTEGRATION
On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le
degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la
mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et
al 2004)
Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit
lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en
un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme
est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a
eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un
systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types
drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La
mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les
vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes
envoyeacutees au systegraveme
21 Degreacute drsquointeacutegration
Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement
appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere
approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema
inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche
agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources
de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une
transparence drsquointerface
211 Approche agrave couplage serreacute
Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de
lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul
emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema
peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit
conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des
requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme
drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas
50
des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des
deacutefinitions de regravegles (voir la sous-section 3213)
Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre
tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema
inteacutegrateur
212 Approche agrave couplage lacircche
Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du
systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter
lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les
utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre
accessibles pour des requecirctes
Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour
les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de
sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas
sont toujours visibles
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration
Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees
provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees
Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle
lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web
seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune
telle infrastructure
221 Modegravele de donneacutees du systegraveme drsquointeacutegration
Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le
modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un
scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les
donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas
drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour
acceacuteder aux sources de donneacutees
51
222 Types drsquointeacutegrations seacutemantique
Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas
drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres
systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants
Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun
point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique
comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les
communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration
verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati
2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la
communauteacute informatique)
Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une
correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme
drsquointeacutegration
Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la
preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux
drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche
drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier
des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique
ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire
le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees
seacutemantique
223 Approches ascendante et descendante
Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre
seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche
lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball
2002)
Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des
besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele
de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans
lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces
meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins
des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les
sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir
desquelles les donneacutees deacutecisionnelles sont extraites
52
Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les
donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle
construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-
automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour
deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode
considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la
source (List et al 2002)
23 Mateacuterialisation des reacutesultats
Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle
deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de
lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre
deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche
virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global
extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes
adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees
Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette
approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce
stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les
donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un
entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de
donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes
sources de donneacutees doit passer par des proceacutedures de mises agrave jour
24 Accegraves aux donneacutees
Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes
pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la
navigation speacutecialement dans les systegravemes baseacutees sur le Web
3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE
Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute
dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une
53
approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees
Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres
suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes
sources et combineacutees dans un scheacutema global
31 Approche non mateacuterialiseacutee
Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels
sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques
de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme
ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour
drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web
proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50
(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble
eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et
permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute
de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases
comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs
reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble
drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome
humain
Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types
drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees
biologiques le systegraveme meacutediateur et le systegraveme navigationnel
311 Le systegraveme meacutediateur
Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un
systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent
stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture
meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous
indiquerons dans cette section comment certaines approches meacutediateur sont directement
issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est
celle qui est la plus reacutepondue en informatique
48
httpwwwncbinlmnihgovsitesgquery 49
httpexpasyorg 50
httpsrsebiacuk
54
A) Deacutefinition et Architecture
Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose
une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes
pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et
homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes
Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est
central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un
vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit
une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche
lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de
faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de
lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont
calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver
une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique
logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte
poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions
des vues
Figure 1 Architecture dun systegraveme meacutediateur
55
Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme
drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans
leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui
lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon
distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via
des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en
terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source
B) Approches GAV LAV et GLAV
Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par
la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des
sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales
drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave
inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes
(GLAV) (Baader et al 2003)
Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour
lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave
inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont
deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette
approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance
Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du
scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de
donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit
que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee
par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois
deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources
de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se
ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement
effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de
nouvelles sources de donneacutees
La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est
geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources
ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels
que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le
scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par
51
Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes
56
exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute
ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global
Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications
consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T
a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)
Figure 2 Lapproche GAV (Global As View)
Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les
scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et
inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche
LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de
donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre
ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du
scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute
et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une
requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en
termes de vues est en effet bien plus complexe que dans une approche GAV Nous
renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle
Figure 3 Lapproche LAV (Loacl As View)
57
Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche
GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee
en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche
GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une
nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans
lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue
sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut
deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif
que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du
pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la
conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison
entre les trois approches
Figure 4 Approche GLAV
Table1 Comparaison des approches GAV LAV et GLAV
Approche Reacuteeacutecriture de requecircte mise-agrave-jour source
GAV facile difficile LAV difficile facile
GLAV difficile facile
C) Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix
des sources ce qui est autant plus important qursquoil a un grand nombre de sources
disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple
surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du
scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque
58
les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui
eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable
(2) Problegraveme rencontreacutes
Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les
donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune
source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes
Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les
reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au
niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement
supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se
fait directement au niveau des donneacutees centraliseacutees
Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur
sont
Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des
langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave
inteacutegrer et les requecirctes des utilisateurs
En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de
reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave
exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale
Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans
de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre
potentiellement redondantes Pour faire correspondre les instances entre elles il
faut suivre les techniques de lrsquoalignement (mappings en anglais)
D) Panorama des meacutediateurs existants en Bioinformatique
(1) K2Kleisli
Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute
deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave
avoir vu le jour en bioinformatique
Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus
expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection
Programming Language) (Hart et al 1994) En effet le langage CPL permet de
deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources
concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources
59
qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de
KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et
EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences
nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et
al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome
Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de
seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par
SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema
orienteacute objet
Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un
langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect
inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non
seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes
objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du
langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur
de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les
sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL
(2) TAMBIS
Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un
systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester
(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO
(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave
travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au
niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le
systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee
pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les
rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une
requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave
la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de
K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux
sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au
format HTML
TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec
OWL qui sont des langages plus expressifs
52
httpwwwncbinlmnihgovdbEST 53
httpgdbwwwgdborg
60
Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa
besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier
avec un langage de requecircte particulier
(3) DiscoveryLink
DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de
DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une
architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire
drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)
utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute
syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont
soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute
lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les
adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator
(Arenson 2003) mais fonctionne toujours selon le mecircme principe
(4) BACIIS
Le projet BACIIS (Biological And Chemical Information Integration System) est un
systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS
BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique
de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le
langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois
dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes
organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees
(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que
rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)
La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de
donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de
donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet
drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme
drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux
inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la
correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme
permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration
54
httpwwwalmadenibmcomcsgarlic
61
312 Le systegraveme navigationnel
Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche
drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris
Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet
de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave
construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques
sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes
sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont
transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle
permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les
sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte
peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations
A) Deacutefinition
Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes
mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec
des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires
telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins
et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)
Notons que compareacute au nombre important de sources de donneacutees actuellement
disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin
dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research
(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les
sources les plus importantes partagent des identifiants mais nombreuses sont celles plus
petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que
partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences
souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les
interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle
atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur
augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive
(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee
par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet
Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger
rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne
neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est
fait encore aujourdrsquohui manuellement
B) Exploitation des reacutefeacuterences croiseacutees
Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un
premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple
62
Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des
informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)
Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune
mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave
des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes
sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas
neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-
reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour
La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur
lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous
consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le
montre lrsquoexemple de la Figure 5
Figure 5 Exemple de partage de reacutefeacuterences entre les sources
Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans
lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero
drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en
gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)
Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les
mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la
reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct
55
httpwwwncbinlmnihgovomim 56
httpamigogeneontologyorgcgi-binamigogocgi
63
La Figure 6 illustre le graphe de liens existants entre les quatre sources pour
reacutepondre agrave la requecircte
Figure 6 Graphe de liens entre les sources
En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent
Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3
Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle
possegravede afin drsquointerroger Source1 et Source2
La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune
boucle apparaicirct dans le parcours des sources
Table 2 Les deux deacuteroulements possibles
Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date
Sceacutenario 1 Sceacutenario 2
Requecircte avec une date sur S1
Requecircte sur S2
Agrave partir de id2 tireacute de S1
Requecircte sur S3
Requecircte avec une date sur S3
Requecircte sur S1 et S2
A partir de id1 et id2 tireacutes de S3
64
Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs
chemins possible pour obtenir les donneacutees souhaiteacutees
Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur
simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure
apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de
la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire
La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle
nrsquoapporte aucune information suppleacutementaire
Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer
les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-
section suivante
C) Panorama des systegravemes navigationnels existants en Bioinformatique
Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de
plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour
le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins
traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont
eacutevalueacutes ces diffeacuterents chemins
(1) Le systegraveme SRS
SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par
lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and
Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par
LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques
de donneacutees (Zdobnov et al 2002)
SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme
drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de
description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And
Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est
drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les
donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index
sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche
drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un
entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees
Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en
mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et
57
httpwwwbiochipnetcomnode1561
65
donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et
beaucoup de banques speacutecialiseacutees
ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences
permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de
relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences
La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web
SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot
cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent
ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la
recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-
reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations
compleacutementaires contenues dans drsquoautres sources
Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques
pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des
sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une
mecircme requecircte
(2) Le systegraveme BioMediator
Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave
lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de
transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses
reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger
Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et
lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur
Le systegraveme BioMediator suit une conception modulaire composeacute de six composant
(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees
biologiques structureacutes et semi-structureacutees
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de
66
Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds
repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de
meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre
une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes
dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe
PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin
PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte
et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes
dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)
(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI
Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema
meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de
scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation
seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees
(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte
XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)
(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des
regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les
requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs
chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins
Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork
et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui
correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une
confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite
Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur
plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des
chemins possibles plutocirct qursquoune liste reacuteduite
(3) Le systegraveme BioNavigation
BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle
Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)
Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation
drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne
pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont
lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau
physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique
58
httpprotegestanfordedu 59
httpwwwxmlcompuba20030611qexohtml
67
ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces
entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)
Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes
entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la
construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les
citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute
lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo
BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une
requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur
des moyens pour eacutevaluer et optimiser les choix de chemins
Figure 8 Exemple de graphe dentiteacutes (Niveau logique)
Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction
du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps
drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and
Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour
reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs
paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans
BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et
sont classeacutes selon trois paramegravetres
68
La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un
chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)
ougrave e1 est une entreacutee de S1 et e2 de S2
La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale
Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution
locale et les deacutelais drsquoaccession aux sources
Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le
satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la
probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le
nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du
chemin le plus efficace en temps
(4) Le systegraveme BioGuide
Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche
navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des
utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet
BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils
bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus
drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine
biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils
et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces
graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y
seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type
de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et
des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous
la forme de chemins entre les sources Ces chemins sont construits en respectant les
preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix
Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la
preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins
geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute
drsquoutilisation
Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat
drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les
diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de
strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes
au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la
requecircte et iii) visitent une source donneacutee une seule fois
69
Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de
lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte
et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)
(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans
le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La
requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se
compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur
le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave
partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des
chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees
Figure 9 Architecture de BioGuide
Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler
ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de
strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou
les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide
ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand
nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees
divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)
70
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)
Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees
reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema
global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis
exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse
est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les
donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique
transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle
Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations
individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et
surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave
lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il
est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce
qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees
global
321 Deacutefinition et Architecture
A) Deacutefinition
Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit
lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non
volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest
pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se
caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)
Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes
Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet
et neacutecessaires aux besoins drsquoanalyse dans une structure unique
Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees
en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour
reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le
reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources
Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la
reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont
non volatile elles ne disparaissent pas apregraves les mises agrave jours
60
httpenwikipediaorgwikiBill_Inmon
71
Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont
permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct
consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent
Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les
valeurs particuliegraveres dans le temps
Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils
drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter
facilement les donneacutees
B) Architecture
Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en
deacutetaillant les diffeacuterentes couches qui le constituent
Figure 10 Architecture dun entrepocirct de donneacutees
Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et
heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data
Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes
depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line
Analytical Processing) (voir la sous-section 322)
Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)
syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend
les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la
hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees
fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-
72
Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui
repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations
concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur
structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct
Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes
vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)
lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux
structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees
inteacutegreacutees dans le systegraveme cible
Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et
une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant
logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape
drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans
un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de
donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme
logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees
neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par
source ou un middleware pour toutes les sources
73
Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees
Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave
effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct
de donneacutees Ce processus de transformation requiert la mise en correspondance
structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de
lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-
scheacutemas ou appariement de scheacutemas (schema matching)
Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent
du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est
interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de
scheacutema et de correspondance inter-scheacutemas
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute
S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et
G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents
types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un
eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison
drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs
(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles
(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel
74
Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes
qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les
critegraveres de classification suivants (Rahm and Bernstein 2001)
Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir
des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au
niveau du scheacutema
Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des
eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-
structures complexes de scheacutemas
Langage versus contrainte Les correspondances peuvent se baser sur des
approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute
de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)
Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la
relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre
scheacutema ceci menant agrave quatre cas 11 1n n1 nm
Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne
reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires
telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees
Il faut noter que certains algorithmes effectuent les correspondances en se basant
sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel
Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W
Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement
transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la
deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement
dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs
caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des
systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car
les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)
Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP
pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes
sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des
modifications freacutequentes et des volumes de donneacutees par transaction relativement faible
Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour
preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une
75
reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de
modification
Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont
qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est
reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes
sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser
une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de
grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus
complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas
correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux
de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est
entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil
contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de
chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de
lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une
alimentation reacutefleacutechie et planifieacutee dans le temps
324 Les modegraveles des entrepocircts de donneacutees
La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees
transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de
donneacutees repose sur un modegravele multidimensionnel de donneacutees
A) La modeacutelisation conceptuelle
La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association
(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)
en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de
nouvelles entiteacutes
De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave
comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation
E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute
(1) Concept de fait de dimension et de hieacuterarchie
Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse
des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que
lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur
fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction
tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees
76
en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62
Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors
qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble
drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs
Figure 13 Exemple de cube de donneacutees
Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les
attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une
dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes
relations drsquoordre entre ses attributs
Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois
dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps
Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la
proteacuteine
(2) Modegraveles en eacutetoile en flocon et en constellation
A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees
simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure
est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente
visuellement une eacutetoile on parle de modegravele en eacutetoile
61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres
correspondant aux formations faisant varier les mesures de lactiviteacute 62
Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63
Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail
77
Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce
scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions
autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute
eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions
Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la
modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la
modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de
dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et
al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions
Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au
sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la
normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball
2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des
dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend
plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema
augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte
Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en
trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en
quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo
Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui
utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs
faits et des dimensions communes (Benitez-Guerrero et al 2001)
B) La modeacutelisation logique
Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation
multidimensionnelle Il est possible dutiliser
un systegraveme de gestion de bases de donneacutees existant tels que les SGBD
relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)
un systegraveme de gestion de bases de donneacutees multidimensionnelles
(MOLAP)
Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de
bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line
Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere
suivante
Chaque fait correspond agrave une table appeleacute table de fait
Chaque dimension correspond agrave une table appeleacutee table de dimension
78
Figure 14 Modegravele en eacutetoile
Figure 15 modegravele en flocon
Figure 16 Modegravele en constellation
79
Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes
et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension
contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la
table de fait
Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de
lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel
se traduit ainsi
Chaque fait correspond agrave une classe appeleacutee classe de fait
Chaque dimension correspond agrave une classe appeleacutee classe de dimension
Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on
utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par
(Object Data Management Group) lrsquoODMG64
Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme
multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD
multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce
tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant
aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-
calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les
systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer
Les systegravemes MOLAP apparaissent comme une solution acceptable pour le
stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne
deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont
consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression
doivent ecirctre utiliseacutees
Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de
redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les
utiliseacutees sont
Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun
des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un
ensemble de faces diffeacuterents
Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune
dimension
Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune
repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble
64
wwwodmgorg
80
de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de
dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune
opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas
connu agrave lrsquoavance
C) La modeacutelisation de donneacutees XML multidimensionnelles
Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards
tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant
disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent
chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage
drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un
environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees
XML est de les convertir en donneacutees relationnelles Cependant mettre en place un
entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche
inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes
dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery
Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and
Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction
pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML
Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque
document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme
respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la
validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier
repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile
ou en flocons de neige
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing
81
La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave
lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel
multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute
en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette
approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur
leurs contenus
Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document
XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun
ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et
hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au
modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML
325 Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis
les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest
reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les
donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et
non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en
œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de
lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique
(Davidson et al 2001 Hernandez and Kambhampati 2004)
La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut
stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees
provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la
gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo
La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des
donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par
thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en
consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs
sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un
thegraveme
La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au
sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes
sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement
82
La transformation de donneacutees lors de lrsquointeacutegration Le processus de
transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de
reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration
verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce
processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de
reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema
La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles
localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees
provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte
(2) Problegravemes rencontreacutes
Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction
de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des
sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction
des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette
tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection
drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment
de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct
Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages
des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees
des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)
Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport
aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et
comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes
increacutementaux
Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car
les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations
ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches
drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique
A) GUS
Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand
entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS
est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les
maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux
proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support
pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et
83
lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour
stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative
2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al
2007)
Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts
(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et
annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de
nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et
dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il
possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat
drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des
donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS
chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de
regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale
B) GEDAW
Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees
deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des
eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de
Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse
des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees
dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves
disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de
GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches
biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees
inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie
GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees
structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology
UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de
correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme
instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent
ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences
renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)
ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est
incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut
lui aussi eacutemettre des regravegles de nettoyage des donneacutees
65
httpplasmodborgplasmo 66
httpwwwcbilupenneduepcondb42 67
httpwwwncbinlmnihgovprojectsSNP
84
Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les
scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-
mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de
deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de
transformer les structures des sources vers une forme canonique (le scheacutema global) Dans
le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour
identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres
pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des
informations
C) BioWarehouse
BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de
construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de
bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de
BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot
Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le
chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de
lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de
BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source
correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le
chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la
seacutemantique et du scheacutema global
Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un
fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des
donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations
drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas
freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation
drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir
de diffeacuterents modules
Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema
relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou
commerciales comme ORACLE
68
httpbiocycorg 69
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
85
D) GenMapper
GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques
biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene
UniProt GO InterPro KEGG et OMIM
Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema
global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic
Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les
donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales
que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source
comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le
systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le
reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu
dans le scheacutema GAM
GenMapper propose une interface conviviale de conception de requecircte ougrave
lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il
choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur
GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de
deacutepart
GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes
drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche
drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes
E) GEWARE
GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees
qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations
sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types
drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la
creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP
Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits
correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations
et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees
en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-
down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations
GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les
analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper
70
httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71
httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
86
est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees
sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare
4 DISCUSSION
Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la
recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes
drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee
Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les
donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les
rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle
au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix
en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter
Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32
fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans
un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les
donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs
propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees
inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche
permettant de lutter efficacement contre les donneacutees inconsistantes provenant de
diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands
volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la
conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes
drsquoanalyses ulteacuterieures
Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des
approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches
conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct
deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside
dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour
Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de
lrsquoaccessibiliteacute de ces sources externes
La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration
horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires
et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes
sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de
compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes
ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne
87
peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et
qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des
principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de
maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune
source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un
certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent
de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes
De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le
modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les
avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees
biologiques et avons dresseacute un panorama des solutions existantes en informatique en
montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques
88
Deacuteuxieacute meacute Partieacute
89
90
CHAPITRE 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp
91
Chapitre 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes
donneacute eacutes deacute Pseacuteudomonas sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91
2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101
31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101
32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102
33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107
34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113
36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117
5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123
1 INTRODUCTION
Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties
sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si
depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour
ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte
92
lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre
drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et
techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en
informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un
entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-
structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques
meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit
drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus
biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes
conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la
litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les
avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees
(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave
certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent
motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de
recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des
donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce
domaine font souvent appel agrave des traitements trop complexes pour tourner sur des
donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester
sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique
est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres
et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui
est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le
meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un
systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour
exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une
bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees
peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur
La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la
deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des
donneacutees
La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout
nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de
PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs
formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs
du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre
exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees
publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une
eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees
93
geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees
cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence
pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les
sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les
donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave
identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees
La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est
drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de
donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes
reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global
de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees
provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour
Respecter la fiabiliteacute de lrsquoinformation
Respecter la coheacuterence des informations une mecircme donneacutees pouvant
provenir de deux sources diffeacuterentes il faut alors choisir la plus
judicieuse
Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de
maniegravere unique une donneacutee
Unifier la repreacutesentation des donneacutees
Veacuterifier la non-redondance des informations
Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer
les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral
lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)
lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des
sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et
seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin
drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et
autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des
donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement
logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de
transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de
donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration
ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-
based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute
effectueacutee automatiquement en se basant sur quelques API (Application Programming
Interface) de java
94
2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW
Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est
un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de
lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees
inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies
Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema
inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et
meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui
nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)
Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un
environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de
construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation
souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave
lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans
les approches top-down les scheacutemas des sources importent peu pour la conception du
scheacutema global Ils seront seulement pris en compte dans un second temps quand les
correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour
permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema
global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne
connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir
PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-
up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema
telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus
drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les
donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en
assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La
combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples
permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus
cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements
cellulaire
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW
Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees
comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases
de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et
de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les
95
diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees
meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du
niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations
complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque
source de donneacutees sa provenance son contenu et sa structure
211 Bases de donneacutees geacutenomique et proteacuteique
PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du
gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une
collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de
donneacutees
GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee
comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont
publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al
2011) Cette base de donneacutees est produite au sein de NCBI (National Center for
Biotechnology Information) comme une partie de la collaboration internationale
des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal
Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs
reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de
380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre
des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines
avec la taxonomie le geacutenome le mappage la structure et les domaines
drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed
GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format
XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour
speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des
gegravenes et des seacutequences soumises
Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de
donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus
(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines
leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les
donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est
met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut
suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant
189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les
donneacutees en format HTML XML et Fasta
72
httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml
96
PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation
Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des
informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur
les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC
contient principalement des informations deacutetailleacutees sur les structures des opeacuterons
et des promoteurs y compris une eacutenorme collection des sites de liaisons et de
facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison
reacutegulateurs est disponible et une matrice du poids de position (position weight
matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la
litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave
plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du
serveur du PRODORIC par la technologie SOAP via le protocole HTTP en
utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit
eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux
utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs
propres programmes
212 Bases de donneacutees meacutetaboliques
KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme
humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est
consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique
(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux
moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les
informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de
donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions
(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus
respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers
chimique
Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies
(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus
cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du
SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui
facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique
Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure
drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes
(Kanehisa et al)
74
httpwwwprodoricde
97
213 Bases de donneacutees Enzymatique
PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees
enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la
collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles
agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme
une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et
deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique
de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites
directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en
biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des
programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est
veacuterifieacutee manuellement par au moins un biologiste et un chimiste
Le contenu de BRENDA couvre des informations sur la fonction la structure
loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des
donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et
lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que
laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des
caracteacuteristiques de la structure
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de
PseudmonasDW
Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont
plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la
litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction
drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative
Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-
hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave
aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on
parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)
que drsquoentrepocirct de donneacutees (ou data warehouse)
Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des
donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema
inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine
le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct
98
Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa
complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser
notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour
une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les
instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees
drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM
(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est
baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware
nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de
cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans
le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques
qui sont accessible via le web (Briache et al 2012)
Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de
donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment
impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de
lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de
lrsquoarchitecture du systegraveme
La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves
aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)
Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al
2003)
Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un
flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest
acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit
drsquoune technologie informatique intergicielle (comprendre middleware) permettant
drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une
autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees
dans les applications des transformateurs qui manipulent les donneacutees et des mises en
correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est
lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW
Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont
uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos
Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre
des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees
dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW
est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque
source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers
99
occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un
adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte
approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements
suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de
donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les
fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave
partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP
Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de
performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de
lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees
au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les
combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux
obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au
format HTML
Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par
lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation
qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees
Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des
services web Finalement le systegraveme transforme les donneacutees extraites en un format
commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser
une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le
scheacutema global par des regravegles de correspondances deacutefinies (mappings)
Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle
en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons
aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un
entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du
systegraveme est citeacute dans la section suivante
75
httpjenaapacheorg 76
httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77
httpexistsourceforgenet
100
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW
101
3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE
LrsquoENTREPOT DE DONNEES PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans
cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de
plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)
le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees
drsquoorigine
En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon
deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les
donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par
SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme
un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration
seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du
PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source
et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement
agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une
description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW
31 Scheacutemas de source
La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW
constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude
deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour
deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons
creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont
consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les
sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes
102
de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale
sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA
32 Services de donneacutees
Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees
et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration
(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees
accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute
comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons
deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons
deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du
Web
Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs
en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent
ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation
de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au
protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des
103
applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un
modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et
srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un
service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de
meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les
services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes
et reacuteutilisables raquo
Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la
fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture
adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service
Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le
protocole Web raquo
321 Architecture du service de donneacutees dans PseudmonasDW
Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)
Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de
diffeacuterentes sources de donneacutees
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW
Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux
sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document
104
XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa
seacutemantique comme un service web La seacutemantique du service Web inclut des informations
sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans
le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de
donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de
service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application
Programming Interface)
LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois
meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document
XML La structure du ce document doit satisfait les contraintes du scheacutema de la source
Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux
meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema
XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur
la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)
Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux
diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant
geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au
service Web La partie importante de la classe Service est de tenir la correspondance entre
la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de
donneacutees Autrement dit la classe service est responsable de mettre des correspondances
entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees
322 Impleacutementation du service de donneacutees dans PseudmonasDW
Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache
Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter
le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous
les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le
fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du
service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute
webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service
78
httptomcatapacheorg 79
httpwsapacheorgaxisoverviewhtml
105
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web
La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier
deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des
proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement
ltservicegt (Figure 22)
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web
Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont
Lrsquoattribut name indique le nom du service web
Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute
pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider
106
Java RPC qui permet drsquoexposer une classe Java quelconque en tant que
service Web
Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements
ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes
Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la
classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le
chemin vers la classe java compileacutee associeacutee au service Web (nous referons
ici agrave la classe Service)
Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes
exposeacutees par le service Web La valeur speacuteciale indique que nous avons
exposeacutes toutes les meacutethodes du serveur Web
La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service
dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil
drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur
de deacuteploiement du service via la commande suivante
java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd
-httphostnameportnumberwebServiceFolderNameservicesAdminService
Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService
WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute
effectueacutee par la saisie de la direction lsquohttphostnameportnumber
webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis
drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement
107
33 Scheacutema Inteacutegrateur du PseudmonasDW
Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de
sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche
deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de
lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les
donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute
effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des
sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct
est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des
informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune
redondance au niveau du scheacutema inteacutegrateur
Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des
informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour
identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons
appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du
scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema
global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
laquo Le scheacutema global correspond agrave la description des relations entre toutes les
donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de
leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo
(King et al 2008)
En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la
deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel
modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre
exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW
Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la
reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
(Figure 24)
108
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW
Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un
scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une
interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une
ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema
conceptuel
Une ontologie de domaine est une laquo description intentionnelle de ce qui nous
connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des
concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine
de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre
domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses
caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une
terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure
lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts
Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees
par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui
modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel
simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui
repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les
proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie
109
peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la
cateacutegorie des concepts relieacutes aux sources de donneacutees
Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les
entiteacutes biologiques (par exemple les classes gene genome protein
enzymehellip)
Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes
reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple
le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans
lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de
donneacutees originales Ce type de concept a un rocircle tregraves important pour garder
les traces de donneacutees dans PseudmonasDW
Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de
proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les
individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype
properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de
PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes
des objets
Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au
niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les
eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des
objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees
Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur
drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation
speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code
pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate
(Roychoudhury et al 1992)
Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase
sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo
algU reacutegule le gegravene algD
Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes
abreacuteviations que leurs gegravenes
Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif
Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132
110
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)
A partir de cet exemple nous pouvons deacuteduire
Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo
Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux
concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo
Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts
lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo
pour le concept lsquoEnzymersquo
Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du
concept lsquoProteinrsquo
Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie
standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de
OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de
domaine qui preacutesente une simple hieacuterarchie des concepts
34 Correspondances seacutemantiques entre les scheacutemas
En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin
drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements
approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de
ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une
111
des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees
(Toumani et al 2007)
Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As
View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des
sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente
une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue
deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de
donneacutees
Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de
sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de
correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de
donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que
nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA
P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath
Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie
En geacuteneacuterale nous avons deacutefinie trois types de mappings
112
Mapping des Classes ce type de mappings deacutefinie des associations entre les
classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere
suivante
XPath-Element-Location Ontology-Class-Name correspondence-
index
Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement
du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo
repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie
lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine
la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave
100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de
mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema
du BRENDA
ResultEnzymeEnzyme100
ResultEnzymeFunctional_ParameterKMKM100
Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les
proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il
srsquoeacutecrie comme suit
XPath-Domain-Location XPath-value-Location Ontology-Domain-
Name Property-Name correspondence-index
Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du
scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment
lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son
rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent
respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la
proprieacuteteacute de type de donneacutees lsquohasValuersquo
ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional
_ParameterKMKM_ValueKMhasValue100
ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu
nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal
ue100
Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes
drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere
suivante
113
XPath-Domain-Location XPath-Range-Location Ontology-Domain-
Name Ontology-Range-Name Property-Name correspondence-index
Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo
deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la
proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo
et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau
de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet
Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee
au scheacutema de source
ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti
onal_ParameterhasFunctionalParameter100
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web
Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des
infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de
programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application
distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour
mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter
tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains
drsquoentre eux
Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par
le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration
de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est
baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic
Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de
base pour construire des applications de Web seacutemantique il est disponible en tant que
serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour
consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)
Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le
meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire
seacutemantique (Semantic Directory)
Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et
al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure
27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO
est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les
relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV
114
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core
Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum
des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique
Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents
types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core
Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware
pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)
getOntology( url) listOntologies() and listOntologies(concept)
Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies
enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les
impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les
correspondances (mappings) entre le scheacutema de cette ressource et les ontologies
enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux
utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(
serviceName url queryMethod schemaMethod))
Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface
drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies
Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux
diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos
services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a
permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre
disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et
115
solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de
deacutetail dans la section 36)
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM
36 SB-KOM System Biology Khaos Ontology-based Mediator
Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un
systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute
SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes
2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a
eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des
sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est
composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et
lrsquoeacutevaluateurinteacutegrateur
Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et
coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des
116
reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et
assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes
provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats
conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en
terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type
de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient
les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de
domaine
Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des
plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans
geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees
pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees
Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il
y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de
domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des
scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees
seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme
correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath
sont actives dans la proprieacuteteacute
Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte
conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de
concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres
Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous
1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux
groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats
ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux
arguments (les proprieacuteteacutes)
2 Construire GS un ensemble de combinaisons entre les deux groupes en se
basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave
cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes
3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les
mapping enregistreacutees au niveau de SD-Core
4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les
arguments preacutedicats
a La variable instancieacutee constitue le nœud racine
b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour
la variable instancieacutee et les eacuteleacutements qui ne contiennent que la
variable instancieacutee (sans les autres variables) seront passeacutes au nœud
courant et eacutelimineacutes de GS
117
c Les eacuteleacutements qui contiennent une autre variable en plus de celle
instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres
nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees
seront repreacutesenteacutes par drsquoautres variables qui seront des variables
instancieacutees
d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour
chaque nouvelle variable instancieacutee
LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de
requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes
dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de
lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans
lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees
souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit
des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant
les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de
services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie
des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de
domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de
requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations
inutiles
4 PROCESSUS ETL DANS PSEUDOMONASDW
Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer
comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus
drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise
par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive
suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct
Ans(PEOGPW)-
Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym
e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)
ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn
(PPW)
Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee
lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un
organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de
cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies
118
meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des
donneacutees sur le gegravene qui code pour elle
Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en
terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de
donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P
Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient
les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de
cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de
donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism
IsEnzyme CodedBy et ParticipateIn) (Figure 29)
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge
La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et
qui sont relieacutees aux
Organism par le biais de la relation ForOrganism
Pathway par la relation ParticipateIn
Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi
agrave la classe Organism par la relation ForOrganism
Gene par la relation CodedBy
Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une
fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au
planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la
119
requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique
lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan
drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un
ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les
preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et
appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par
la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par
le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes
possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3
A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire
des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables
instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux
variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave
exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave
lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut
pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend
Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe
agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la
proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils
deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees
lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations
ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus
lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend
au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees
120
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte
Groupe Sous-requecircte Service de Donneacutees
G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA
Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors
que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque
nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes
par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-
requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave
lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter
Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant
Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour
notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la
proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le
nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de
classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques
dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-
requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de
donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee
avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher
les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce
que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le
service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)
parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG
Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments
(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes
lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo
A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees
extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des
instances des scheacutemas XML des sources sous-jacentes Le composant
Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles
121
de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine
enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de
domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles
sont produites de services de donneacutees diffeacuterents Afin de les associer
lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au
niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de
domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant
EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat
obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees
extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est
automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java
(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-
db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees
XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de
donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW
122
Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL
(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees
souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les
services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la
transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les
instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer
dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La
derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a
permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif
(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein
de PseudmonasDW
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
123
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
5 DISCUSSION ET CONCLUSION
Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels
du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en
bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et
donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui
caracteacuterisent les donneacutees biologiques
Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et
analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon
doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus
quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont
pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques
caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique
De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus
complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de
processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute
La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie
par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel
environnement
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de
Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de
multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement
drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et
reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes
124
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes
Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour
extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs
forment une partie importante dans les services de donneacutees qui fournissent des moyens
pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de
donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une
interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les
donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM
Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous
somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui
offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De
cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance
(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema
inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de
domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts
et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de
lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement
aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees
dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques
bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration
seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs
avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement
stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre
part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le
meacutediateur
Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que
leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se
distingue des autres sur diffeacuterents points
125
Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une
diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de
connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique
et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des
donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de
GO
Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement
adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique
appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans
PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema
global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema
afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une
modification profonde du scheacutema
Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des
sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des
donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas
la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la
non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute
Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation
Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne
maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans
PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local
dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
126
CHAPITRE 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp
127
Chapitre 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes
Pseacuteudomonas Sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163
1 INTRODUCTION
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces
bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de
certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee
par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et
chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute
de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de
Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique
128
Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de
donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme
Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI
Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82
National Center for Biotechnology Information (NCBI) Microbial Genomes83
(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de
donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques
sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne
pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que
Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site
Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune
grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent
sur le suivi des changements des annotations et de permettre leur comparaison entre les
espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part
Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees
fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de
donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et
fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais
manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les
voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas
la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees
qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas
aeruginosa PAO1
Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le
chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui
regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece
de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour
une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase
de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les
acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique
aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de
PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires
concernant les espegraveces de Pseudomonas
80
httpimgjgidoegov 81
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82
httpwwwxbaseacuk 83
httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84
httpwwwmicrobesonlineorg 85
httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86
httpwwwpseudomonas-syringaeorg 87
httpwwwpseudomonascom
129
2 MODEacuteLISATION DE PSEUDOMONASDW
Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il
est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de
passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les
proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle
dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de
nombreux choix qui auront des reacutepercussions importantes dans la suite
La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux
drsquoabstraction diffeacuterents
Modegravele conceptuel repreacutesente le contenu de la base en termes
conceptuels indeacutependamment de toute consideacuteration informatique
Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un
scheacutema propre agrave un type de base de donneacutees
Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et
drsquoaccegraves aux donneacutees de la base
La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des
systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins
des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle
consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux
domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains
aspects des systegravemes physiques ou humains et de leur environnement
Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee
gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling
Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et
son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques
et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur
lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par
ce langage pour la conception de PseudomonasDW
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW
Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de
PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une
88
Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage
130
fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle
joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)
et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun
utilisateur exteacuterieur le voit
Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur
(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le
biologiste)
Table4 La liste des acteurs
Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via
lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies
par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit
Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en
introduisant son URL
Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des
mots cleacutes via son interface web
Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en
utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme
a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)
Table5 les cas drsquoutilisation de lrsquoutilisateur
Acteur Cas drsquoutilisation
Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet
PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web
Administrateur Le superviseur du systegraveme
Cas drsquoutilisation
Etablissement drsquoune connexion avec le systegraveme
Interrogation du systegraveme
Analyse de donneacutees
131
b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)
Figure 33 Le diagramme de cas dutilisation de lutilisateur
PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees
stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du
PseudomonasDW sont comme suit
Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par
lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du
systegraveme
Construction du reacutesultat
Translation du reacutesultat en un format lisible par lrsquoutilisateur
a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)
Table 6 les cas drsquoutilisation de PseudomonasDW
Cas drsquoutilisation
Translation de la requecircte
Construction du reacutesultat
Translation du reacutesultat
132
b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW
Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer
nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser
lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent
le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit
Inteacutegration de donneacutees au sein de PseudomonasDW
Nettoyage de donneacutees en eacuteliminant les redondances
Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de
donneacutees en fonction des sources originales
Maintenance de lrsquoentrepocirct de donneacutees
Maintenance de lrsquointerface Web
Ajout des fonctionnaliteacutes en cas de besoin
a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)
Table 7 les cas drsquoutilisation de lrsquoadministrateur
Cas drsquoutilisation
Inteacutegration de donneacutees
Nettoyage de donneacutees
Mise agrave jour de donneacutees
Maintenance de PseudomonasDW
Maintenance de lrsquointerface Web
Ajout de fonctionnaliteacutes
133
b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)
Figure 35 Le diagramme de cas dutilisation de ladministrateur
22 Diagrammes de seacutequence du systegraveme PseudomonasDW
Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets
selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects
dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes
sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute
drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du
Siemens Pattern Group (Buschmann et al 1996)
Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des
messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW
(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les
diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son
reacutecepteur
134
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur
Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de
PseudomonsDW
message eacutemetteur reacutecepteur
1 Demande de connexion Utilisateur Web app
2 Etablissement de connexion Web app Utilisateur
3 Envoi de requecircte via des formulaires HTML Utilisateur Web app
4 Reacuteception de requecircte Web app Web app
5 Geacuteneacuteration de requecircte XQuery Web app Web app
6 Envoi de la requecircte XQuery Web app PDW DB
7 Interrogation des indexes PDW DB PDW DB
8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB
9 Construction de reacutesultat XML PDW DB PDW DB
10 Transformation de reacutesultat de XML en XHTML PDW DB Web app
11 Affichage de reacutesultat en forma XHTML Web app Utilisateur
135
23 Diagramme de classes du systegraveme PseudomonasDW
Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la
modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les
composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des
eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations
Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les
diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de
la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir
les diffeacuterentes classes et relations composant notre diagramme de classe
Le diagramme de classe de PseudomonasDW est constitueacute de six classes
principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)
auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de
raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous
a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses
diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des
bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes
en trois sections la section supeacuterieure contient le nom de la classe la section centrale
deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les
diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation
qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui
sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de
composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base
3 IMPLEMENTATION DE PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese
est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de
Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les
applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources
multiples
Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre
diviseacutes en deux familles (Mahboubi et al 2009)
La premiegravere famille propose une modeacutelisation multidimensionnelle pour les
entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en
eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des
dimensions et offrent un support pour des outils danalyse
136
Les approches de la seconde famille abordent la probleacutematique de lentreposage de
documents XML Elles perccediloivent un entrepocirct XML comme une collection de
documents XML
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous
sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les
donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML
Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML
Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des
documents XML obtenus de la transformation des instances RDF au niveau de notre
entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons
donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases
de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees
XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)
31 Organisation des bases de donneacutees de PseudomonasDW
Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du
genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base
de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection
des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees
selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des
scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce
modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de
lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de
PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons
nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo
137
Figure 37 Le diagramme conceptuel de PseudomonasDW
138
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW
Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees
Genomes complets
Pseudomonas aeruginosa PAO1 6264404 5682 5556
Pseudomonas aeruginosa M18 6327754 5764 5684
Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269
Pseudomonas aeruginosa LESB58 6601757 6061 5908
Pseudomonas aeruginosa PA7 6588339 6369 6246
Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886
Pseudomonas fluorescens PfO-1 6438405 5829 5714
Pseudomonas fluorescens Pf-5 7074893 6233 6137
Pseudomonas fluorescens SBW25 6722539 6106 5921
Pseudomonas fluorescens F113 6845832 5953 5862
Pseudomonas putida F1 5959964 5403 5245
Pseudomonas putida GB-1 6078430 5529 5408
Pseudomonas putida KT2440 6181863 5516 5350
Pseudomonas putida W619 5774330 5309 5182
Pseudomonas putida BIRD-1 5731541 5046 4960
Pseudomonas putida S16 5984790 5307 5171
Pseudomonas syringae pvphaseolicola 6112448 5437 5172
Pseudomonas syringae pvtomato 6397126 5688 5481
Pseudomonas syringae pvsyringae 6093698 5220 5089
Pseudomonas stutzeri A1501 4567418 4210 4128
Pseudomonas stutzeri DSM 4166 4689946 4372 4301
Pseudomonas stutzeri ATCC 17588 4547930 4287 4181
Pseudomonas entomophila L48 5888780 5275 5134
Pseudomonas mendocina ymp 5072807 4704 4594
Pseudomonas mendocina NK-01 5434353 5035 4954
Pseudomonas brassicacearum NFM421 6843248 6176 6081
Pseudomonas fulva 12-X 4920769 4540 4459
Genomes incomplets
Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207
Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905
Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221
Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096
Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402
Pseudomonas chlororaphis - - 218
Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts
(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie
meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements
figureacutes directement apregraves lrsquoeacuteleacutement racine
Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur
organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees
correspondante
Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au
gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee
Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees
sous lrsquoeacuteleacutement laquoProteinDataraquo
139
Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans
PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte
deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes
Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les
diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans
lrsquoentreacutee
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1
32 Impleacutementation des bases de donneacutees de PseudomonasDW
En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees
sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML
deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la
version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome
qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute
Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des
servlets pour lrsquoaccegraves distant
89
httpjettycodehausorgjetty
140
La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de
charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents
XML dans 33 collections une collection pour chaque espegravece entreposeacute dans
PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre
application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery
Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de
fonctions de XQuery
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW
90
XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML
141
4 INTERFACE WEB DE PSEUDOMONASDW
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
41 Les Moteurs de rechercheacute dans PseudomonasDW
Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des
moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees
XML natives
Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les
pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur
quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute
qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de
recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de
recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas
parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu
laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ
speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-
down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la
proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave
minimiser le temps et la complexiteacute de la recherche
Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la
possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce
formulaire de recherche ou moteur de recherche propose des champs de recherche
multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de
Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein
Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons
aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs
espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la
possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees
Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant
de 1 agrave 33
142
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche
143
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute
144
Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue
nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave
quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de
donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML
et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues
HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a
eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et
convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de
PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans
quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis
Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML
Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta
Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3
42 Les entreacutees de Pseudomonas DW
Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq
sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la
section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont
listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune
section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de
PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee
dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails
des cinq sections
La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces
informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la
langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant
pour les proteacuteines et les ARN
La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en
question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom
scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les
diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la
seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de
transcriptions les sites de liaison et les sites de mutations ou de modification Cette section
offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du
gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A
partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage
145
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524
146
La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle
contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui
permet un affichage et une lecture tregraves simple Les informations de cette section sont
repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la
proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et
lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes
caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les
reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que
la seacutequence peptidique de la proteacuteine
La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine
deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission
numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees
enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions
catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats
et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des
informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des
informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des
paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo
La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans
lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement
propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de
donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)
lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie
meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique
preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les
composants et les modules de la voie meacutetabolique
Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les
entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou
lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo
deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas
(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis
Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la
proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la
retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la
proteacuteine dans des voies meacutetaboliques
147
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW
Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees
biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types
Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees
bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper
ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant
Ces outils doivent donc ecirctre
Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet
Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs
Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre
de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre
obligeacute de jongler avec diffeacuterentes sources dinformations
Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des
biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les
premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les
deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la
visualisation des annotations associeacutees Cette classification est toutefois quelque peu
scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de
donneacutees outils dinterrogation et outils de navigation sur le geacutenome
Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation
aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes
agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique
quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce
manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et
inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre
outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires
entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces
stockeacutees dans PseudomonasDW
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)
Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas
facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs
points forts et plusieurs faiblesses
91
DataBank browsers 92
Genome browsers
148
Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente
la meilleure application pour la geacutenomique comparative mais dautre part un autre
navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec
beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de
deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et
qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest
pas aussi riche que Ensembl
Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux
besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave
Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen
attentif
Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur
geacutenomique pour PseudomonasDW
Ensembl est toute une application libre de droit dauteur sur son code source
qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le
neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute
et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse
ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et
la deacutecouverte et la reacutesolution de bugs plus difficile
Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des
avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute
que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le
fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans
le site Web Or la plupart des bases et banques de donneacutees geacutenomiques
existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme
navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs
utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le
trouveront plus aiseacute agrave manipuler
Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur
geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des
geacutenomes en plus de la rapiditeacute qui est indispensable
Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs
geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux
autres navigateurs (Sen et al 2010)
93
httpgmodorgwikiGBrowse
149
511 GBrowse Vue geacuteneacuterale
GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui
correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de
donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord
speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des
subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut
national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License
(ou GPL)
GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation
graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres
eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives
comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave
ADN GBrowse propose les fonctionnaliteacutes suivantes
vue globale et vue deacutetailleacutee du geacutenome
deacutefilement zoom et centrage
utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien
personnaliseacutees
joindre une URL arbitraire agrave une annotation
ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur
final
recherche par ID annotation nom ou commentaire
connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95
support multi-langues
prise en charge des annotations agrave partir du format GFF96
persistance des paramegravetres de session agrave session
plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de
nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des
cartes de restriction eacutediter des fonctions)
512 Installation de GBrowse
Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous
avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite
lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons
eu besoin drsquoinstaller
94
httpwwwbiosqlorgwikiMain_Page 95
httpgmodorgwikiChado_-_Getting_Started 96
httpgmodorgwikiGFF
150
Apache Web Server97
Perl 598
Les modules de Perl suivants
o GCI
o GD
o DBI
o DBD mysql
o Digest MD5
o Text shellwords
Bioperl99
Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi
drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une
installation automatique de GBrowse
adminadmin~$ sudo apt-get install gbrowse gbrowse-calign
gbrowse-data
La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les
donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de
gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec
sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape
drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des
adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature
que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD
le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est
le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations
au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer
la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB
SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le
plus reacutecent des adaptateurs et le plus recommandeacute
513 Creacuteation et peuplement des bases de donneacutees MySQL
Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une
eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par
PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque
chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees
relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce
97
httphttpdapacheorg 98
httpdevperlorgperl5 99
httpwwwbioperlorgwikiMain_Page
151
contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la
banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos
besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers
GFF3
La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de
donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait
la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans
PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees
pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees
MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par
lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse
adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn
dbimysqlDB_Name --user root --password
varlibgbrowsedatabasesfilegff3
La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles
soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de
fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la
forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de
GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui
152
srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le
paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de
configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi
nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour
donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante
Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse
nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un
onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave
lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil
GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage
reacutesultante
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011
153
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW
521 Blast Vue geacuteneacuterale
Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences
(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une
seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme
dun package composeacute des programmes suivants
blastn blast nucleacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques
blastp blast proteacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
proteacuteiques
blastx blast nucleacuteique vs proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
proteacuteiques
tblastn blast proteacuteique vs nucleacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
nucleacuteiques
tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences
nucleacuteiques
Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse
comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir
teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une
base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme
lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle
base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA
Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais
son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct
de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees
proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute
une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette
application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de
le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web
154
522 La fonctionnaliteacute du Blast
Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les
seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la
page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de
PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans
PseudomonasDW
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW
La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la
possibiliteacute de PrimeblasterPrime ses seacutequences contre
Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences
(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences
agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees
comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le
choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la
partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses
extreacutemiteacutes
Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire
de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette
155
option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des
bases de donneacutees stockeacutees au niveau de PseudomonasDW
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW
156
Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java
lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en
extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le
sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs
drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi
deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement
une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui
sera retourneacutee agrave lrsquoutilisateur via son navigateur Web
Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral
Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme
de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une
petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine
lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes
seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession
dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les
scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en
deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage
drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement
obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple
drsquoalignement
157
Figure50 Exemple de reacutesultat de Blast
6 PDWiki
Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons
deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de
donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des
informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies
meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts
diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive
Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les
Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous
introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa
maniegravere drsquoaccegraves
158
61 Geacuteneacuteraliteacute sur les Wikis biologiques
Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat
sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web
sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre
simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun
navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est
maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des
donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis
biologiques (bio-wikis) comprennent
Le deacuteveloppement collaboratif et le partage des connaissances
Lrsquoannotation collaborative de contenus de bases de donneacutees
La creacuteation collaborative de contenus de bases de donneacutees
Le deacuteveloppement collaboratif et le partage de la documentation et des
connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un
consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des
nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de
conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont
geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de
recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets
biologiques speacutecialiseacutes
Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait
que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement
coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de
donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux
utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats
indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler
cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien
que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de
donneacutees elles-mecircmes restent inchangeacutees
La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans
les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de
donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement
deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums
et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite
100
httpwwwwikipediaorg
159
62 PDWiki Infrastructure et contenue
PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki
baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et
correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des
extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de
diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104
automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de
MediaWiki
MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de
nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen
des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une
bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de
MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le
principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des
bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de
lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La
classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees
de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe
lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo
est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure
geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec
PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle
elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo
PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de
PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le
premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations
suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour
chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de
plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas
limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et
lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus
La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee
correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans
PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le
101
httpwwwmediawikiorgwikiMediaWiki 102
httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103
httpwwwmediawikiorgwikiExtension_Matrix 104
httpenwikipediaorgwikiWikipediaBots 105
httpjwbfsourceforgenet
160
nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans
PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas
modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir
PseudmonasDW
La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle
appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece
Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page
speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations
suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom
de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au
moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo
La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque
espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page
lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est
conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW
Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les
utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par
lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils
peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces
informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les
interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie
de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les
sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies
meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs
peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des
reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les
activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier
les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des
informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents
composants dans la section lsquoPathwaysrsquo
Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources
dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et
contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee
161
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW
lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils
contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo
162
pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la
page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease
alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des
gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)
lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation
ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de
certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une
liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de
cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene
Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo
Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie
meacutetabolique apparaissant dans une page lsquoPDWEPrsquo
63 Comment naviguer dans PDWiki
Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la
recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des
pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur
163
gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct
sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est
de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de
recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les
pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au
sein de PDWiki en utilisant le formulaire de recherche
Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque
espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave
une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre
PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible
daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa
Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire
de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple
et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a
plusieurs avantages certains dentre eux sont
Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo
quand quelquun fait des modifications au niveau des pages de PDWiki
Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et
une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres
utilisateurs
Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages
qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106
7 DISCUSSION
Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes
modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm
2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves
Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de
Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans
cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base
de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des
bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire
agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur
lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les
plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de
106
httpwwwmediawikiorgwikiManualWatchlist
164
Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en
comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees
PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees
laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre
pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines
interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait
ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base
de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee
eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de
PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des
informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees
aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de
PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies
meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des
informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c
oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation
oxydative et la voie meacutetaboliques
Dautre part PseudomonasDW fournit des informations sur un ensemble plus
vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux
ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces
sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas
aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1
Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM
4166 et Pseudomonas chlororaphis
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
165
CONCLUSIONS ET PERSPECTIVES
166
Conclusions eacutet peacuterspeacutectiveacutes
Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante
bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3
comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon
rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur
mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile
et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P
syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain
Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des
infections pulmonaires mortelles chez les patients atteints de fibrose kystique
Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la
recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes
geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations
Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une
heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont
actuellement disponibles publiquement les types de donneacutees sont divers et les ressources
sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent
une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour
deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour
deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des
formats plus standard tels que XML (eg GenBank) A noter que les banques proposent
souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats
est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)
objet (eg Gus) ou semindashstructureacute (eg GenBank)
Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier
lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-
Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la
proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de
deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la
167
confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une
mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque
Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les
langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)
dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des
langages structureacutes tels que SQL (Genopage) ou OQL (Gus)
La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations
lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible
leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la
bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources
de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette
automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine
pour une recherche plus efficace des informations et une meilleure exploitation des
reacutesultats
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute
proposeacutees les approches navigationnel entrepocirct et meacutediateur
Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont
extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les
deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des
sources ce sont des portails et des meacutediateurs
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement
les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
168
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement
inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le
cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe
KHAOS de lrsquouniversiteacute de Malage
Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de
donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les
sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent
autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees
biologiques
Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des
sources de donneacutees biologiques et comportent une description des divers niveaux
drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des
solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme
navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine
entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une
inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine
biologique afin de proposer une solution drsquointeacutegration simple et flexible
Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre
des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin
drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee
1 REacuteSUMEacute DES CONTRIBUTIONS
Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne
fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur
exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se
sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent
169
principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que
possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers
et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos
travaux concernent plusieurs points
Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees
biologiques de Pseudomonas Sp
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas
requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de
donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi
proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees
heacuteteacuterogegravenes
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW
integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq
sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot
BRENDA et KEGG
Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les
donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie
importante dans les services de donneacutees qui fournissent des moyens pour interroger et
correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le
processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des
requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les
transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services
de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees
Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce
manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine
de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute
utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de
donneacutees un service pour une source de donneacutees
PseudomonasDW integravegre des sources de donneacutees offrant des informations
chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets
170
eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique
pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration
seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global
inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un
scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous
les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global
de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare
citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle
sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les
sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau
de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune
modification profonde
Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le
meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute
notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a
joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM
Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation
preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances
permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances
retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation
automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de
donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part
les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une
interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees
sont virtuellement acheveacutees en utilisant le meacutediateur
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
171
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune
installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave
certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige
une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse
surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la
plateforme Linux
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes
baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents
XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui
contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents
XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement
(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33
collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
172
Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques
pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons
incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il
affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des
gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est
un programme permettant de reacutealiser des alignements et des comparaisons locaux entre
deux seacutequences (nucleacuteiques ou proteacuteiques)
PseudomonasDW contient 170000 entreacutes et fournit des informations sur un
ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave
10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome
database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa
NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244
Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC
17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis
La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les
voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies
et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des
sections speacutecifiques pour les enzymes et les voies meacutetaboliques
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
2 OUVERTURE ET PISTES DE RECHERCHE
La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave
disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves
nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension
anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre
deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant
Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et
consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette
thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs
173
Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous
focalisant sur plusieurs points particuliers
Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW
Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance
accordeacutee agrave la source et sa qualiteacute estimeacutee
Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la
performance des donneacutees stockeacutees au niveau de PseudomonasDW
Automatiser la recherche de correspondance entre eacuteleacutements des
scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour
rendre lrsquoajout des nouvelles sources de donneacutees plus facile
Concernant lrsquointeacutegration des donneacutees
Inteacutegrer non seulement des sources de donneacutees mais aussi des services
Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres
anneacutees dans le domaine biologique et les perspectives offertes
semblent tregraves prometteuses
Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de
preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour
fouiller et comparer les donneacutees inteacutegreacutees
174
GLOSSAIRE
175
Glossaireacute
Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois
nucleacuteotides (codons) dans lrsquoARN
ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation
geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le
chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN
macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des
chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement
(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN
formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se
dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du
pheacutenomegravene de reacuteplication
Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions
hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus
complexe
Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences
codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation
syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les
entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit
les sources de donneacutees biologiques
API (Application Programming Interface) Interface pour langages de programmation
mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme
pour par exemple communiquer ou extraire des donneacutees
ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de
ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une
seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de
transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques
Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences
comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour
deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions
drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui
permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des
proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes
Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non
Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule
drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune
hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les
cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion
176
agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la
division cellulaire
Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros
serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et
unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture
est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees
Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte
deacutecisionnel deacutecentraliseacute
Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de
donneacutees exemple dimension temporelle dimension proteacuteique hellip
Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur
conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme
moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs
du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur
DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par
Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document
SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu
constitueacute par leurs sous-eacuteleacutements et leurs attributs
Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les
organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est
fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype
Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le
geacutenome nucleacuteaire
Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central
de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines
notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes
de reacutegulation
Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee
numeacuterique
FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et
William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le
programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines
Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et
porteur drsquoune information geacuteneacutetique
Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece
Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties
drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome
177
GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et
distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix
HTML (HyperText Markup Language) Langage de description de pages Web Un standard
initieacute par le W3C et compatible tous systegravemes
Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes
Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement
diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble
Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN
correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation
Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position
choisie)
Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme
drsquoun scheacutema de donneacutees
MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant
une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui
explique les performances Dans le second les jointures entre les tables de dimension et de fait sont
effectueacutees au moment de la requecircte
OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place
drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une
cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs
dimensions
Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin
OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de
lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant
Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave
linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le
deacuteclenchement de la transcription) et un ou plusieurs gegravenes
OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par
lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et
collections
Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports
baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration
systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau
(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de
maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec
celui-ci
178
Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique
(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique
notamment Un comportement particulier tout comme une combinaison de comportements
peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou
plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes
et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un
caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou
moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement
deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son
alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse
existe eacutegalement)
Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui
apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations
auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul
Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique
Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave
30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent
des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=
le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour
assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de
lrsquoinformation
Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une
comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un
support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou
ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees
compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus
ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit
syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le
type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et
quantifieacutes
Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser
les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le
principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave
CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot
contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN
tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-
repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du
meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De
maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment
correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de
caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents
dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des
suppresseurs de tumeurs
179
Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir
du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un
support meacutetallique et analyseacutees par spectromeacutetrie de masse
ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de
lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles
Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc
sous une forme plus deacutetailleacutee
Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe
concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine
informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des
informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux
neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies
Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides
amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN
(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage
drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit
fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes
Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie
par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides
(polymegraveres de nucleacuteotides)
Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet
indeacutependamment des plates-formes et des langages sur lesquelles elles reposent
SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels
permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du
domaine drsquoapplication
Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier
des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de
masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe
reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport
massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines
scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages
biologie meacutedecine
SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de
programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans
des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut
extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de
donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus
complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de
180
modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de
donneacutees et daccegraves
Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance
lrsquoidentification des formes vivantes et leur rangement dans une classification
Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome
URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur
uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant
lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour
adresser les ressources du World Wide Web telles que des documents HTML des images ou des
sons
Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet
Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct
et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux
ordinateurs et aux humains de travailler en plus eacutetroite collaboration
XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et
de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications
en diffeacuterents environnements hardware et software
Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements
dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un
sur-ensemble de XPath
181
ANNEXES
182
Anneacutexeacute 1 UML
La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996
UML est une norme de lOMG (Object Management Group) qui est un consortium des
principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive
homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune
seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants
UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent
ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre
UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des
systegravemes informatiques
Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur
Modegravele des classes capture la structure statique
Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages
Modegravele des eacutetats exprime le comportement dynamique des objets
Modegravele de deacuteploiement preacutecise la reacutepartition des processus
Modegravele de reacutealisation montre les uniteacutes de travail
Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant
correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de
diagrammes
Diagramme des classes structure statique il repreacutesente les classes
intervenant dans le systegraveme
Diagramme des eacutetatstransitions comportement dune classe en termes
deacutetats
Diagramme dobjets repreacutesentation des objets (des occurrences des
classes) et de leur relations ils correspondent agrave des diagrammes de
collaboration simplifieacutes (sans envoi de message)
183
Diagramme des paquetages un paquetage eacutetant un conteneur logique
permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le
Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages
crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions
Diagramme de structure composite permet de deacutecrire sous forme de
boicircte blanche les relations entre composants dune classe
Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs
interactions
Diagramme de communication repreacutesentation simplifieacutee dun diagramme
de seacutequence se concentrant sur les eacutechanges de messages entre les objets
Diagramme global dinteraction permet de deacutecrire les enchaicircnements
possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de
diagrammes de seacutequences
Diagramme de temps permet de deacutecrire les variations dune donneacutee au
cours du temps
Diagramme des cas dutilisation il permet didentifier les possibiliteacutes
dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les
fonctionnaliteacutes que doit fournir le systegraveme
Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration
en termes dactions
Diagramme de composants repreacutesentation des composants physiques
dune application
Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les
steacutereacuteotypes des classes ou des packages
Diagramme de deacuteploiement repreacutesentation du deacuteploiement des
composants sur les dispositifs mateacuteriels
184
Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes
Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la
premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de
Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute
dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant
devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une
deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante
Une base de donneacutees XML native deacutefinit un modegravele logique pour un document
XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au
minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du
document
Une base de donneacutees XML native gegravere le document XML comme une uniteacute
fondamentale de stockage comme une ligne dans une table relationnelle
Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent
particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique
orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers
compresseacutes indexeacutes
La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de
donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain
nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de
donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de
lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc
La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale
dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible
qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents
lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des
bases de donneacutees XML actuelles
La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas
important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de
185
donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest
pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait
envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees
XML native comme eXist lrsquoa fait agrave ses deacutebuts
Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement
pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les
transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des
langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc
parfaitement dans notre approche entiegraverement baseacutee sur XML
186
Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute
Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de
donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate
Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute
sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace
drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience
drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel
Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage
propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves
actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est
compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un
processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une
application
eXist fournit un stockage sans scheacutema des documents XML dans des collections
hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des
documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs
peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents
contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement
de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification
rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-
descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de
chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement
les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de
documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions
La base de donneacutees convient bien aux applications manipulant des petites ou larges
collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute
conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant
lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes
XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath
187
et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre
autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres
Architecture drsquoeXist
eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement
agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents
XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale
Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement
seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des
courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et
les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques
comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles
possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un
ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et
XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du
cœur drsquoeXist
eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut
fonctionner comme un processus serveur autonome fournissant des interfaces http et
XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles
peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut
fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-
RPC SOAP109 et WebDAV110 sont fournis par les servlets
Figure 53 Architecture deXist copy Wolfgang Meier
107
httpxmlrpcscriptingcomspechtml 108
httpxmldb-orgsourceforgenetxapixapi-drafthtml 109
httpwwww3org2000xpGroup 110
httpwwwietforgrfcrfc2518txt
188
BIBLIOGRAPHIE
189
Bibliographieacute
Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125
Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary
Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442
Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410
Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381
Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29
Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress
Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press
Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520
Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155
Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE
Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178
Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37
Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15
Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863
Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314
190
Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104
Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333
Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille
Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7
Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53
Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet
Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons
Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192
Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates
Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences
Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193
Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93
Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69
Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis
Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148
Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306
Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie
Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592
Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74
191
Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87
Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345
Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979
Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy
Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique
Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531
Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572
Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53
Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822
Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc
Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432
Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20
Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57
Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128
Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68
Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469
Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris
Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73
192
Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research
Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8
Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788
Gautier C (1981) Nucleic acid sequences handbook Praeger
Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523
Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance
Griffith A (2005) Java XML and the JAXP In Wiley (ed)
Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928
Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174
Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264
Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153
Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511
Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9
Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119
Harold ER and Means WS (2004) XML in a Nutshell OReilly Media
Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA
Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915
Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60
Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190
Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448
Hunter J (2003) X is for Query Oracle Magazine
Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York
Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)
193
Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541
Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology
Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)
Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30
Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357
Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280
Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59
Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169
Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley
Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337
Kimball R (2002) data warehouse toolkit
Kimball R (2003) The Bottom-Up Misnomer
King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18
Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper
Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web
Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597
Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283
Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138
Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni
Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170
194
Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268
Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441
List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215
MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA
Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562
Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144
Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348
Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105
Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381
Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378
Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755
McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)
McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587
Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34
Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376
Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477
Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537
Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall
Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65
195
Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269
Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga
Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622
Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230
Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2
Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846
Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125
Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350
Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163
Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171
Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)
Rehm B (2009) Pseudomonas Wiley-VCH
Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557
Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996
Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149
Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84
Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010
Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696
Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236
Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243
Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871
196
Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York
Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186
Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188
Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141
Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298
Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73
Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110
Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276
Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298
Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis
Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717
Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49
Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488
Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6
Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150
Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373
Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33
197
Reacute feacute reacutenceacutes Inteacuterneacutet
198
Reacute feacute reacutenceacutes Inteacuterneacutet
(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml
AmiGO httpamigogeneontologyorgcgi-binamigogocgi
Apache Server httphttpdapacheorg
ArrayExpress httpwwwebiacukarrayexpress
ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm
Axis httpwsapacheorgaxisoverviewhtml
BioCyc httpbiocycorg
BioGrid httpthebiogridorg
Bioperl httpwwwbioperlorgwikiMain_Page
biosql httpwwwbiosqlorgwikiMain_Page
Blast httpblastncbinlmnihgovBlastcgi
Bots httpenwikipediaorgwikiWikipediaBots
BRENDA httpwwwbrenda-enzymesinfo
Chado httpgmodorgwikiChado_-_Getting_Started
ChEBI httpwwwebiacukchebi
CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
core httpdublincoreorg
CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast
dbEST httpwwwncbinlmnihgovdbEST
dbSNP httpwwwncbinlmnihgovprojectsSNP
DDBJ httpwwwddbjnigacjp
Dublin Core httpdublincoreorg
EBI httpwwwebiacuk
EcoCyc httpecocycorg
EMBL httpwwwemblde
EMBO httpwwwemboorg
ensEMBL httpwwwensemblorgindexhtml
Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric
Entrez httpwwwncbinlmnihgovsitesgquery
EPConDB httpwwwcbilupenneduepcondb42
eXist httpexistsourceforgenet
199
ExPASy httpexpasyorg
ExPASy httpexpasyorg
Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix
FASTA httpwwwebiacukToolssssfasta
Flybase httpflybaseorg
Garlic httpwwwalmadenibmcomcsgarlic
Gbrowse httpgmodorgwikiGBrowse
GDB httpgdbwwwgdborg
Genbank httpwwwncbinlmnihgovnuccore
GeneCards httpwwwgenecardsorg
GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame
GEO httpwwwncbinlmnihgovgeo
GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
GFF httpgmodorgwikiGFF
GO httpwwwgeneontologyorg
HGNC httpwwwgenenamesorg
IMG httpimgjgidoegov
inmon httpenwikipediaorgwikiBill_Inmon
InterPro httpwwwebiacukinterpro
Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml
JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
jena httpjenaapacheorg
Jetty httpjettycodehausorgjetty
JWBF httpjwbfsourceforgenet
KEGG httpwwwgenomejpkegg
LION Bioscience AG httpwwwbiochipnetcomnode1561
MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings
Medline httpwwwmedlinecom
MeSH httpwwwnlmnihgovmesh
MetaCyc httpmetacycorg
MGI httpwwwinformaticsjaxorg
Microbes Online httpwwwmicrobesonlineorg
MIPS httpwwwhelmholtz-muenchendeenibis
MySQL httpwwwmysqlcom
NCBI httpwwwncbinlmnihgov
NIH httpwwwnihgov
OBO httpwwwobofoundryorg
ODMG wwwodmgorg
OMIM httpwwwomimorg
ORACLE httpwwworaclecomindexhtml
OWL httpwwww3orgTR2009WD-owl2-primer-20090611
PDB httpwwwrcsborgpdbhomehomedo
200
peer-review literature httpenwikipediaorgwikiPeer_review
perl httpdevperlorgperl5
Pfam httppfamsangeracuk
PhosphGrid httpwwwphosphogridorg
Plasmodb httpplasmodborgplasmo
ProDom httpprodomprabifrprodomcurrenthtmlhomephp
PRODORIC httpwwwprodoricde
Proteacutegeacute httpprotegestanfordedu
Pseudomonas Genome Database httpwwwpseudomonascom
Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg
PseudomonasDW httpwwwpseudomonasdwkhaosumaes
PubMed httpwwwncbinlmnihgovpubmed
Qexo httpwwwxmlcompuba20030611qexohtml
RDF httpwwww3orgTRrdf-concepts
RDFS httpwwww3orgTRrdf-schema
RefSeq httpwwwncbinlmnihgovRefSeq
RiboWeb httphelix-webstanfordeduribowebhtml
SGD database httpwwwyeastgenomeorg
SRS httpsrsebiacuk
Tomcat httptomcatapacheorg
UML httpwwwumlorg
UMLS httpwwwnlmnihgovresearchumls
UniGene httpwwwncbinlmnihgovunigene
UniProt httpwwwuniprotorg
W3C httpwwww3org
watchlist httpwwwmediawikiorgwikiManualWatchlist
WebDAV httpwwwietforgrfcrfc2518txt
Wikipedia httpwwwwikipediaorg
xBASE httpwwwxbaseacuk
XML httpwwww3schoolscomxml
XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml
XML-RPC httpxmlrpcscriptingcomspechtml
XML-RPC SOAP httpwwww3org2000xpGroup
ZFIN httpzfinorg
Remerciement
1
Reacute sumeacute
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Leur faciliteacute de
culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de Pseudomonas
ont fait de ce genre un foyer ideacuteal pour la recherche scientifique Lrsquoimportance biologique fournie
par les Pseudomonas dans le domaine de la recherche a donneacute naissance agrave un grand nombre
drsquoinformations Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a
conduit agrave une heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante Aujourdrsquohui lrsquoun des grands deacutefis
de la bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources de
donneacutees heacuteteacuterogegravenes via des proceacutedures automatiques Dans ce cadre notre travail a pour finaliteacute la
reacutealisation drsquoun environnement inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce
travail entre dans le cadre drsquoune collaboration scientifique entre notre laboratoire de recherche
LABIPHABE et le groupe KHAOS de lrsquouniversiteacute de Malage
Lrsquooriginaliteacute de notre travail est de combiner lrsquoapproche mateacuterialiseacutee (entrepocirct de donneacutees) et
lrsquoapproche virtuelle (meacutediateur) pour profiter de ces avantages agrave la fois Lrsquoentrepocirct va permettre
lrsquoaccegraves direct et rapide aux donneacutees alors que le meacutediateur permettra lrsquointeacutegration de diffeacuterentes
sources de donneacutees et aussi il permettra la mise agrave jour des donneacutees en cas de besoin Notre entrepocirct
de donneacutees nommeacute PseudomonasDW integravegre les donneacutees biologiques stockeacutees dans cinq bases de
donneacutees diffeacuterentes accessibles via le Web Genbank PRODORIC UniProt KEGG et
BRENDA PseudomonasDW est un entrepocirct de donneacutees semi-structureacute pour lrsquointeacutegration
seacutemantique des donneacutees du genre Pseudomonas Il a eacuteteacute conccedilu dans le but de reacutepondre aux besoins
des biologistes en matiegravere de donneacutees geacutenomiques proteacuteomiques et meacutetaboliques Lrsquointeacutegration des
donneacutees agrave partir des sources de donneacutees heacuteteacuterogegravenes repreacutesente la consolidation des donneacutees
heacuteteacuterogegravenes conduisant agrave la reproduction des nouvelles donneacutees ne peuvent pas ecirctre obtenues agrave
partir drsquoune seules source
Mot cleacutes Pseudomonas inteacutegration de donneacutees entrepocirct meacutediateur approche hybride
PseudomonasDW
2
Reacutemeacutercieacutemeacutents
3
Reacutemeacutercieacutemeacutents
Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani
pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute
et aideacute tout au long de ses anneacutees de thegravese
Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-
encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de
recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches
Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger
mon travail
Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe
khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton
preacutecieux soutien
A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute
leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont
teacutemoigneacutes
Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec
une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton
encouragement
Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes
compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave
lrsquoavancement de ce travail
Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere
Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma
grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille
Briache
Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail
4
Sommaireacute
5
Sommaireacute
Introduction geacuteneacuterale 18
1 Problematique et motivation 19
2 CADRE ET BUTS DU TRAVAIL 23
3 Les pseudomonas 24
31 Caracteres geacuteneacutereaux 24
32 Pouvoir pathogegravene 26
33 Lutte biologique 27
4 Structure de document 28
Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
1 Introduction 31
2 Eacutetat des sources 32
21 Varieacuteteacute des sources biologiques 33
22 Autonomie et capaciteacutes drsquointerrogation 35
3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37
31 Diversiteacute syntaxique 37
32 Diversiteacute seacutemantique 38
33 Diversiteacute des langages de requecircte 39
34 Diversiteacute des services 39
4 Eleacutements de standardisation 40
41 Format standards et nomenclatures 40
42 Ontologies 41
43 Meacutetadonneacutees 42
44 Langages et formalismes 43
Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46
1 Introduction 47
2 points de variation entre les approches drsquointeacutegration 49
21 Degreacute drsquointeacutegration 49
211 Approche agrave couplage serreacute 49
6
212 Approche agrave couplage lacircche 50
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50
221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50
222 Types drsquointeacutegrations seacutemantique 51
223 Approches ascendante et descendante 51
23 Mateacuterialisation des reacutesultats 52
24 Accegraves aux donneacutees 52
3 approches drsquointeacutegration en bioinformatique 52
31 Approche non mateacuterialiseacutee 53
311 Le systegraveme meacutediateur 53
312 Le systegraveme navigationnel 61
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70
321 Deacutefinition et Architecture 70
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74
324 Les modegraveles des entrepocircts de donneacutees 75
325 Adeacutequation Problegravemes rencontreacutes 81
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82
4 Discussion 86
Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de
Pseudomonas sp 90
1 Introduction 91
2 Vue Global sur le systegraveme PseudomonasDW 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94
211 Bases de donneacutees geacutenomique et proteacuteique 95
212 Bases de donneacutees meacutetaboliques 96
213 Bases de donneacutees Enzymatique 97
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101
31 Scheacutemas de source 101
32 Services de donneacutees 102
321 Architecture du service de donneacutees dans PseudmonasDW 103
7
322 Impleacutementation du service de donneacutees dans PseudmonasDW 104
33 Scheacutema Inteacutegrateur du PseudmonasDW 107
34 Correspondances seacutemantiques entre les scheacutemas 110
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113
36 SB-KOM System Biology Khaos Ontology-based Mediator 115
4 Processus ETL dans Pseudomonasdw 117
5 Discussion et conclusion 123
Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp
126
1 Introduction 127
2 MODEacuteLISATION de PseudomonasDW 129
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129
22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133
23 Diagramme de classes du systegraveme PseudomonasDW 135
3 IMPLEMENTATION DE PSEUDOMONASDW 135
31 Organisation des bases de donneacutees de PseudomonasDW 136
32 Impleacutementation des bases de donneacutees de PseudomonasDW 139
4 INTERFACE WEB DE PSEUDOMONASDW 141
41 Les Moteurs de rechercheacute dans PseudomonasDW 141
42 Les entreacutees de Pseudomonas DW 144
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147
511 GBrowse Vue geacuteneacuterale 149
512 Installation de GBrowse 149
513 Creacuteation et peuplement des bases de donneacutees MySQL 150
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153
521 Blast Vue geacuteneacuterale 153
522 La fonctionnaliteacute du Blast 154
6 PDWiki 157
61 Geacuteneacuteraliteacute sur les Wikis biologiques 158
62 PDWiki Infrastructure et contenue 159
63 Comment naviguer dans PDWiki 162
8
7 DISCUSSION 163
Conclusions et perspectives 165
1 Reacutesumeacute des contributions 168
2 Ouverture et pistes de recherche 172
Glossaire 174
Annexes 181
Bibliographie 188
Reacutefeacuterences Internet 197
9
INDEX DES FIGURES ET DES TABLES
FIGURES
Figure 1 Architecture dun systegraveme meacutediateur 54
Figure 2 Lapproche GAV (Global As View) 56
Figure 3 Lapproche LAV (Loacl As View) 56
Figure 4 Approche GLAV 57
Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62
Figure 6 Graphe de liens entre les sources 63
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65
Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67
Figure 9 Architecture de BioGuide 69
Figure 10 Architecture dun entrepocirct de donneacutees 71
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de
donneacutees 73
Figure 13 Exemple de cube de donneacutees 76
Figure 14 Modegravele en eacutetoile 78
Figure 15 modegravele en flocon 78
Figure 16 Modegravele en constellation 78
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le
systegraveme PseudmonesDW 103
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108
10
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre
conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux
relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et
les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et
lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la
formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet
sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles
de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en
haut des eacuteleacutements de lontologie en rouge 118
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc
contient des informations pour acceacuteder aux services de donneacutees 119
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat
final de leacutetape ETL au sein de systegraveme PseudomonasDW 121
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction
de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de
chargement de donneacutees au sei de PseudmonasDW 122
Figure 33 Le diagramme de cas dutilisation de lutilisateur 131
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132
Figure 35 Le diagramme de cas dutilisation de ladministrateur 133
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134
Figure 37 Le diagramme conceptuel de PseudomonasDW 137
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A
gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW
A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas
aeruginosa PAO1 139
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees
au niveau de PseudomonasDW 140
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne
la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de
seacutelectionner un champ speacutecifique de recherche 142
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections
Organism et Gene de lentreacutee PAE00524 145
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154
11
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles
lutilisateur peut choisir 155
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences
indeacutependamment des bases de donneacutees de PseudomonasDW 155
Figure50 Exemple de reacutesultat de Blast 157
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir
et annoter lentreacutee PAE00524 de PseudomonasDW 161
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de
PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162
Figure 53 Architecture deXist copy Wolfgang Meier 187
TABLES
Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54
Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117
Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130
Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131
Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140
12
ABREVIATION
13
ABREVIATION
ADN Acide Deacutesoxyribonucleacuteique
API Application Programming Interface
ASN Abstract Syntax Notation
BACIIS Biological And Chemical Information Integration System
BioGRID Biological General Repository for Interaction Datasets
BLAST Basic Local Alignment Search Tool
CGH Comparative genomic hybridization
ChEBI Chemical Entities of Biological Interest
CMR Comprehensive Microbial Resource
CPAN Reacuteseau Complet drsquoArchives Perl
CPL Collection Programming Language
CSS Cascading Style Sheets
CSUQ Computer System Usability Questionnaire
CYGD Comprehensive Yeast Genome Database
DAML DARPA Agent Markup Language
dbEST Expressed Sequences Tags databases
DDBJ DNA Data Bank of Japan
DTD Document Type Definition
EBI European Bioinformatics Institute
EcoCyc Encyclopedia of Escherichia coli
EMBL European Molecular Biology Laboratory
EMBO European Molecular Biology Laboratory
EPG Entity Path Generator
ETL Extraction transformation and loading
ExPASy (Expert Protein Analysis System
FTP File Transfer Protocol
GAM Generic Annotation Management
GAV Global As View
GDB Human Genome Databases
GEDAW Gene Expression DAta Warehouse
GenMapper Genetic Mapper
GEO Gene Expression Omnibus
GeWare Gene Expression Warehouse
14
GFF General Feature Format
GIMS Genome Information Management System
GLAV Generalized Local As View
GMOD Generic Modele Organisme Database project
GNU GNUs Not UNIX
GO Gene Ontology
GPL General Public License
GRAIL GALEN Representation and Integration Language
GUS Genomics Unified Schema
HGNC Human Gene Organisation
HGP Human Genome Project
HGP Human Genome Project
HTML HyperText Markup Language
HTTP Hypertext Transfer Protocol
IBM International Business Machines
ICARUS Interpreter of Commands And Recursive Syntax
IMG Integrated Microbial Genomes
INSDC Internatinal Nucleotide Sequence Database Collaboration
INSERM Institut National de la Santeacute et de la recherche meacutedicale
IRISA Institut de Recherche en Informatique et Systegravemes
Aleacuteatoires
JAXB Java Architecture for XML Binding
JAXP Java API for XML Processing
JDBC Java Database Connectivity
K2MDL K2 Mediator Definition Language
KEGG Kyoto Encyclopedia of Genes and Genomes
KOMF Khaos Ontology-based Mediation Framework
LAV Local As View
MCM Modegravele Conceptuel Multidimensionnel
MeSH Medical Subject Headings
MGD Mouse Genome Database
MGI Mouse Genome Informatics
MIPS Munich Information Center for Protein Sequences
MOLAP Multidimensionnal On Line Analytical Processing
NAR Nucleic Acids Research
NBRF National Biomedical Research Foundation
NCBI National Center for Biotechnology Information
15
NIH National Institutes of Health
NXD Native XML Database
OBO Open Biomedical Ontologies
ODL Object Definition Language
ODMG Object Data Management Group
OIL Ontology Inference Layer
OLAP On Line Analytical Processing
OLTP On Line Transactionnel Processing
OMG Object Management Group
OMIM Online Mendelian Inheritance in Man
OOLAP Object On-Line Analytical Processing
OQL Object Query Language
OWL Web Ontology Language
PDP Protein Data Bank
Pfam Protein Famili
PHP Hypertext Preprocessor
PIR Protein Identification Ressource
PPI Protein-Protein Interaction
PQL Program Query Language
PRODORIC PROcariotIC Database Of Gene-Regulation
QUIS Questionnaire for User Interface Satisfaction
RDF Resource Description Framework
RDFS Resource Description Framework Schema
ROLAP Relational On-Line Analytical Processing
SB-KOM System Biology Khaos Ontology-based Mediator
SEPT Source Entity Path Translator
SGBD Systegraveme de gestion de base de donneacutees
SGD Saccharomyces Genome Database
SKB Source Knowledge Base
SOAP Simple Object Access Protocol
SOFG Standards and Ontologies for Functional Genomics
SQL Structured Query Language
SRS Sequence Retrival System
SUS System Usability Scale
Tambis Transparent Access to Multiple Bioinformatic
InformationSources
TaO Tambis Ontology
16
UCL Universiteacute catholique de Louvain
UML Unified Modelling Language
UMLS Unified Medical Language System
UniProt Universal Protein Resource
URL Uniform Resource Locator
USA United States of America
W3C World Wide Web Consortium
WSDL Web Services Description Language
XML Extensible Markup Language
XSLT Extensible Stylesheet Language Transformations
ZFIN Zebrafish Information Network
17
NOTE AU LECTEUR
Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire
18
INTRODUCTION GENERALE
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute
19
Introduction geacute neacute raleacute
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au
domaineacute biologiqueacute
Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere
exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des
sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au
plus grand nombre ouvrant ainsi de belles perspectives en recherche
La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant
les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation
diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse
du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees
diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de
reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees
heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte
Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte
La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs
disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la
complexiteacute du monde vivant (Blagosklonny and Pardee 2002)
Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de
diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques
implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de
donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature
1 PROBLEMATIQUE ET MOTIVATION
Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les
laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute
20
des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de
donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel
Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats
La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas
envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la
documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de
consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter
les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers
plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML
(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les
langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery
(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont
parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur
Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui
avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun
(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes
incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige
lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees
enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par
le biais de formulaires Web ou par une connexion directe au SGBD
De nos jours la masse formidable de donneacutees produites par les centres de recherche
atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de
systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb
2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette
accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune
science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee
2005)
Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des
donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute
particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces
sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare
de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige
leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du
systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise
optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La
1 httpwwwncbinlmnihgovnuccore
2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-
mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
21
majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des
serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent
montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge
Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne
concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct
lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la
preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres
deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-
Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de
logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans
compensation financiegravere5
Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave
rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee
possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux
problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin
dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes
eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario
typique reacutesolu manuellement
Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les
voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee
laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe
le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo
Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape
consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees
Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu
dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par
exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees
KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations
fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue
qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous
auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible
nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave
geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens
hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml
4 httpwwwmysqlcom
5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes
6 httpwwwbrenda-enzymesinfo
7 httpwwwgenomejpkegg
22
paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que
GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes
dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que
tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention
humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne
pas dire inexistante
Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages
de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des
solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface
unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le
cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles
(architecture de meacutediation)
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les
donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des
hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J
and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque
base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace
physique occupeacute serait trop important tant par les donneacutees que la conservation de leur
traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de
fonctionnement du systegraveme
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
23
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans
certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de
transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees
2 CADRE ET BUTS DU TRAVAIL
Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il
srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions
moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux
drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur
apparition croissante dans la litteacuterature scientifique
Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette
masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles
connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet
comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le
Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis
quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer
lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte
drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double
Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces
donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une
proteacuteine donneacutee
Fournir une plateforme complegravete permettant drsquoorienter la recherche par
extraction de nouvelles connaissances
La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en
combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la
mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine
biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre
24
groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de
Malaga
La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees
biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets
drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-
organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees
PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les
enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki
scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la
communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations
relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans
PseudomonasDW
3 LES PSEUDOMONAS
31 Caracteres geacuteneacutereaux
Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al
2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes
Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec
comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le
nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles
sont oxygegravene (+)
Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes
comme source de carbone et drsquoeacutenergie
Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux
antibiotiques et aux antiseptiques
A) Morphologie et structure
Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La
mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour
les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en
deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture
25
B) Croissance et nutrition
De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la
tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes
La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont
capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de
carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les
auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats
carboneacutes utilisables comme source drsquoeacutenergie pour la croissance
C) Caractegraveres physiologiques
Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de
conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de
culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle
tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip
D) Habita
Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol
humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et
se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels
surtout srsquoils sont humides
E) Morphologie et caractegraveres culturaux
Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune
pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de
cette bacteacuterie
Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC
ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la
production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et
non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski
convient pour la culture
F) Aspects de colonies
Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut
ecirctre observeacutee
Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un
contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect
meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave
lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes
Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord
circulaire reacutegulier
26
Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces
colonies se rencontrent presque speacutecifiquement dans des infections chroniques
urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un
polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo
G) Production de pigments
Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification
Ils sont fluorescents ou non fluorescents
Pyoverdine
Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en
eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est
inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer
Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes
fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas
aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de
nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un
moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer
et de le transporte
Pyocyanine
Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la
seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves
drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en
milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la
chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na
Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches
sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des
malades traiteacutes aux antibiotiques
Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent
de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le
diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P
lemonieri P stutzeri et P mendocina
32 Pouvoir pathogegravene
Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme
pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et
27
cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle
peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle
comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par
lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave
certains antibiotiques courants
Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble
laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique
de mauvaises conditions de plantation une autre maladie des blessures un systegraveme
racinaire contraint ou asphyxieacute
Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme
agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de
Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux
eacutetudieacutee
33 Lutte biologique
De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de
biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la
biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par
des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol
ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches
mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour
deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les
performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres
bacteacuteries
Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute
microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les
genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement
sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui
colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent
particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique
Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de
population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient
sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres
rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des
exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave
isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-
A-Woeng et al 2001)
28
Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues
depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans
certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents
phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs
meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de
sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition
du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela
peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la
maladie
4 STRUCTURE DE DOCUMENT
Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les
diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une
description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources
Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions
majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et
montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de
la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques
des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)
qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de
donneacutees originales jusqursquoagrave PseudomonasDW
Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les
espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les
phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet
aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous
deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans
PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur
drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW
Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs
29
Preacutemieacute reacute Partieacute
30
CHAPITRE 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
31
Chapitre 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
Sommaire
1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31
2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32
21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33
22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35
3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38
33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41
43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42
44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43
1 INTRODUCTION
Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif
est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de
solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees
Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80
sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier
1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute
une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise
en place de systegravemes de stockage des donneacutees
32
En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de
seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute
ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos
(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees
relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration
entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest
eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour
proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui
accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques
Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere
sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource
(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve
degraves 1986
2 EacuteTAT DES SOURCES
Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web
eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases
Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus
importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and
Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de
1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu
le jour
On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les
dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de
ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre
source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le
Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)
quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne
leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont
vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces
agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute
stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute
8 httpwwwemboorg
9 httpwwwnihgov
10 httpwwwncbinlmnihgov
11 httpwwwddbjnigacjp
12 httpwwwncbinlmnihgovgeo
13 httpwwwebiacukarrayexpress
33
creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le
deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement
analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)
drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les
reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de
donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements
multiples
La sous-section suivante dresse un rapide panorama drsquoun certain nombre de
sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web
21 Varieacuteteacute des sources biologiques
Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La
classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave
lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees
qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)
classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes
(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de
donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des
travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources
suivantes
Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du
domaine meacutedical Medline16 PubMed17
Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en
existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les
seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank
(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui
contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits
les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de
donneacutees sont ArrayExpress (Europe) et GEO (USA)
Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees
disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement
chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par
14
httpblastncbinlmnihgovBlastcgi 15
httppfamsangeracuk 16
httpwwwmedlinecom 17
httpwwwncbinlmnihgovpubmed
34
un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou
GEOArrayExpress) dans un certain format Toute publication scientifique
soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de
puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification
GenBankEMBLDDBJ (respectivement GEOArrayExpress)
Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne
sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des
seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la
soumission
Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces
sources contiennent des informations nettoyeacutees (au moins automatiquement
comme la suppression de doublons) et parfois mecircme valideacutees manuellement par
des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires
est de partir de donneacutees issues des sources primaires pour proposer des
informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations
compleacutementaires
Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont
deux exemples de sources secondaires qui proposent de regrouper les fiches
GenBank La premiegravere propose une version non redondante de GenBank elle est
obtenue en utilisant des techniques de regroupement semi-automatiques alors que
la seconde construit de faccedilon automatique des clusters de seacutequences
Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement
du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun
ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un
ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans
lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les
reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de
publications et associeacutes agrave un pheacutenotype (une maladie) donneacute
Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources
au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage
(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes
automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils
bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources
18
httpwwwncbinlmnihgovRefSeq 19
httpwwwncbinlmnihgovunigene 20
httpwwwncbinlmnihgov 21
httpwwwomimorg 22
httpprodomprabifrprodomcurrenthtmlhomephp
35
sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des
reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees
Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees
sur une famille de fonctions biologiques Par exemple la source BRENDA
est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique
sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources
FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database
SGD24 (deacutedieacutee agrave la levure)
Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de
fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes
dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve
dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de
synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes
humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt
(Consortium 2010) GenBank)
22 Autonomie et capaciteacutes drsquointerrogation
La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement
autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait
libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent
souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en
faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles
reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source
pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude
du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit
prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution
afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci
lors de lrsquoexeacutecution des requecirctes
Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web
est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet
eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de
cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les
accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client
23
httpflybaseorg 24
httpwwwyeastgenomeorg 25
httpwwwgenecardsorg
36
FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par
exemple) ou plus reacutecemment encore via des appels de services Web Concernant les
interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui
suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces
qursquoil devra utiliser
Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent
tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas
lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont
disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent
soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il
nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la
puissance de calcul drsquoune source par une requecircte trop complexe
soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive
drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source
Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme
drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et
via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs
sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus
expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL
Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais
aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)
ou Fasta26 (Lipman and Pearson 1985)
Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs
repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation
ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les
proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre
automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de
faciliteacute en fonction de lrsquoapproche suivie
26
httpwwwebiacukToolssssfasta
37
3 DIFFICULTES RENCONTREES LORS DE
LrsquoINTERROGATION DES SOURCES
Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web
nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de
donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout
une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements
effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au
cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble
de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi
que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux
des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements
En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele
de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a
deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati
2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses
approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La
taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation
mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des
probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al
2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques
qui rendent leur interrogation complexe et fastidieuse
31 Diversiteacute syntaxique
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les
formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees
soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson
1985) soit du XML du HTML ou des SGBD relationnels ou objets
Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase
drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le
deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du
langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin
2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et
al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave
reacutesoudre
27
httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
38
32 Diversiteacute seacutemantique
Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui
sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus
Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une
entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine
qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene
codant pour chaque proteacuteine est alors vu comme un simple attribut Au
contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et
crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le
domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine
(dans PDB29)
Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee
nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par
exemple UniProt propose des informations sur des proteacuteines issues de
diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles
ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire
chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune
des proteacuteines de la levure
Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une
mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par
exemple selon les sources une proteacuteine est une isoforme particuliegravere
(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes
(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui
peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou
incluant les introns
La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais
qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des
modegraveles des formats et des scheacutemas diffeacuterents
Diversiteacute des informations au niveau des instances
Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son
expertise agrave travers une fiche Il peut arriver que selon les sources une
mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes
Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance
associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est
peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe
drsquoannotateurs Certains annotateurs emploieront le terme de putative 28
httpwwwebiacukinterpro 29
httpwwwrcsborgpdbhomehomedo
39
pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront
le terme hypothetical Drsquoautres encore ne preacuteciseront rien
Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent
plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme
proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les
sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait
plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes
diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas
en preacutesence drsquohomonymie
Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi
ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de
vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie
les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable
puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de
la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees
33 Diversiteacute des langages de requecircte
Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le
langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)
est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases
de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la
source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin
et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes
OQL sur leur scheacutema
34 Diversiteacute des services
Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees
(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave
une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers
ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre
lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par
exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des
heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de
30
httpwwwensemblorgindexhtml
40
donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences
nucleacuteotidiques comme BlastN)
4 ELEMENTS DE STANDARDISATION
Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute
proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms
des concepts sous-jacents aux donneacutees des sources et des noms des relations entre
ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre
experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le
second type de solution est plus geacuteneacuterique il comprend la construction de cadres de
repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que
lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de
concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de
solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees
contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees
41 Format standards et nomenclatures
Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de
terminologies standards pour deacutecrire les donneacutees
Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir
des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies
pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un
workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu
annuellement et regroupe les principaux acteurs sur cette probleacutematique
Le souci de standardisation de lrsquoattribution de noms est pris en compte par le
consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature
Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences
31
httpwwwgenenamesorg
41
42 Ontologies
Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de
faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la
construction de nombreuses ontologies
Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la
philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions
informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune
conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus
souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie
cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a
donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces
concepts
Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine
biologique
Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui
vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques
speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un
organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement
consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants
cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la
communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres
ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie
MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)
Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open
Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en
ligne dont voici un extrait
Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces
particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du
Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish
Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on
distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour
32
httpwwwgeneontologyorg 33
httpwwwobofoundryorg 34
httpwwwinformaticsjaxorg 35
httpzfinorg 36
httpwwwnlmnihgovresearchumls
42
les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject
Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine
Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al
2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39
(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un
dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave
lrsquoEBI41
Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et
al 1997) propose un format de donneacutees une nomenclature et un cadre XML
(RNA-ML) (Waugh et al 2002)
Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)
nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN
et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies
se preacutesentent sous la forme de graphes non cycliques
43 Meacutetadonneacutees
Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil
srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave
une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee
permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation
et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples
de meacutetadonneacutees
lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification
des commentaires exprimant un point de vue sur la ressource
le scheacutema des donneacutees les index associeacutes
des informations de qualiteacute relatives au scheacutema de la ressource
des informations statistiques sur les donneacutees
la speacutecification la signature drsquoun programme
37
httpwwwnlmnihgovmesh 38
httpecocycorg 39
httpmetacycorg 40
httpwwwebiacukchebi 41
httpwwwebiacuk 42
httphelix-webstanfordeduribowebhtml
43
Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute
proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la
description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere
geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la
description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements
(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en
cateacutegories
Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description
(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant
le contenu de la ressource titre sujet ou codes de classement description
source langue relation avec une autre ressource couverture spatiale et temporelle
la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation
la mateacuterialisation de la ressource cycle de vie type format identificateur
44 Langages et formalismes
Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont
deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont
XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du
W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de
donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre
explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou
des applications
Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun
document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en
particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la
grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux
formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document
Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee
en XML
Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les
eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt
43
httpdublincoreorg 44
httpwwww3org
44
De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois
des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique
drsquoeacuteleacutements agrave une structure en graphe
Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un
document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire
deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide
XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il
assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML
crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension
seacutemantique
RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C
pour la description des sources sur le Web Les descriptions se font en exprimant des
proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave
deacutefinir les termes et les relations qui interviennent dans ces descriptions
RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des
meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces
meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes
de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le
Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme
drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en
acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre
une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut
ecirctre reacutealiseacutee et faciliteacutee
Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces
concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des
ontologies
OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute
par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les
applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave
preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML
RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle
OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la
disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus
riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees
45
httpwwww3orgTRrdf-concepts 46
httpwwww3orgTRrdf-schema 47
httpwwww3orgTR2009WD-owl2-primer-20090611
45
OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL
OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une
hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou
taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des
constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux
tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes
de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de
restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes
mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique
de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider
au raisonnement sur une base de connaissances OWL Full permet un maximum
drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe
proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du
vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL
pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de
connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description
46
CHAPITRE 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
47
Chapitre 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47
2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50
23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53
32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70
4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86
1 INTRODUCTION
Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les
questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions
au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes
drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave
plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces
systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and
Kambhampati 2004)
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute
proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur
48
Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des
autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire
communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque
permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire
n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les
systegravemes (Sheth and Larson 1990)
Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune
base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les
applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement
directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)
Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration
drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes
sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont
accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des
sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de
requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources
disponibles
Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves
reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees
biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures
comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees
mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans
le mecircme temps
Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre
les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de
lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les
donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches
sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la
lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes
Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave
ecirctre exhaustifs
49
2 POINTS DE VARIATION ENTRE LES APPROCHES
DrsquoINTEGRATION
On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le
degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la
mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et
al 2004)
Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit
lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en
un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme
est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a
eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un
systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types
drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La
mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les
vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes
envoyeacutees au systegraveme
21 Degreacute drsquointeacutegration
Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement
appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere
approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema
inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche
agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources
de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une
transparence drsquointerface
211 Approche agrave couplage serreacute
Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de
lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul
emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema
peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit
conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des
requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme
drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas
50
des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des
deacutefinitions de regravegles (voir la sous-section 3213)
Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre
tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema
inteacutegrateur
212 Approche agrave couplage lacircche
Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du
systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter
lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les
utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre
accessibles pour des requecirctes
Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour
les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de
sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas
sont toujours visibles
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration
Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees
provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees
Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle
lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web
seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune
telle infrastructure
221 Modegravele de donneacutees du systegraveme drsquointeacutegration
Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le
modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un
scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les
donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas
drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour
acceacuteder aux sources de donneacutees
51
222 Types drsquointeacutegrations seacutemantique
Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas
drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres
systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants
Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun
point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique
comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les
communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration
verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati
2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la
communauteacute informatique)
Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une
correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme
drsquointeacutegration
Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la
preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux
drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche
drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier
des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique
ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire
le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees
seacutemantique
223 Approches ascendante et descendante
Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre
seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche
lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball
2002)
Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des
besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele
de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans
lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces
meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins
des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les
sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir
desquelles les donneacutees deacutecisionnelles sont extraites
52
Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les
donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle
construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-
automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour
deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode
considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la
source (List et al 2002)
23 Mateacuterialisation des reacutesultats
Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle
deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de
lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre
deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche
virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global
extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes
adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees
Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette
approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce
stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les
donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un
entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de
donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes
sources de donneacutees doit passer par des proceacutedures de mises agrave jour
24 Accegraves aux donneacutees
Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes
pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la
navigation speacutecialement dans les systegravemes baseacutees sur le Web
3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE
Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute
dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une
53
approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees
Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres
suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes
sources et combineacutees dans un scheacutema global
31 Approche non mateacuterialiseacutee
Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels
sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques
de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme
ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour
drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web
proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50
(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble
eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et
permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute
de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases
comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs
reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble
drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome
humain
Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types
drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees
biologiques le systegraveme meacutediateur et le systegraveme navigationnel
311 Le systegraveme meacutediateur
Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un
systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent
stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture
meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous
indiquerons dans cette section comment certaines approches meacutediateur sont directement
issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est
celle qui est la plus reacutepondue en informatique
48
httpwwwncbinlmnihgovsitesgquery 49
httpexpasyorg 50
httpsrsebiacuk
54
A) Deacutefinition et Architecture
Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose
une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes
pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et
homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes
Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est
central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un
vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit
une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche
lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de
faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de
lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont
calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver
une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique
logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte
poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions
des vues
Figure 1 Architecture dun systegraveme meacutediateur
55
Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme
drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans
leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui
lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon
distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via
des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en
terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source
B) Approches GAV LAV et GLAV
Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par
la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des
sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales
drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave
inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes
(GLAV) (Baader et al 2003)
Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour
lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave
inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont
deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette
approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance
Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du
scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de
donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit
que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee
par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois
deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources
de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se
ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement
effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de
nouvelles sources de donneacutees
La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est
geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources
ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels
que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le
scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par
51
Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes
56
exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute
ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global
Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications
consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T
a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)
Figure 2 Lapproche GAV (Global As View)
Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les
scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et
inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche
LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de
donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre
ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du
scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute
et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une
requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en
termes de vues est en effet bien plus complexe que dans une approche GAV Nous
renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle
Figure 3 Lapproche LAV (Loacl As View)
57
Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche
GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee
en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche
GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une
nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans
lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue
sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut
deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif
que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du
pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la
conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison
entre les trois approches
Figure 4 Approche GLAV
Table1 Comparaison des approches GAV LAV et GLAV
Approche Reacuteeacutecriture de requecircte mise-agrave-jour source
GAV facile difficile LAV difficile facile
GLAV difficile facile
C) Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix
des sources ce qui est autant plus important qursquoil a un grand nombre de sources
disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple
surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du
scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque
58
les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui
eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable
(2) Problegraveme rencontreacutes
Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les
donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune
source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes
Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les
reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au
niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement
supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se
fait directement au niveau des donneacutees centraliseacutees
Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur
sont
Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des
langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave
inteacutegrer et les requecirctes des utilisateurs
En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de
reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave
exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale
Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans
de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre
potentiellement redondantes Pour faire correspondre les instances entre elles il
faut suivre les techniques de lrsquoalignement (mappings en anglais)
D) Panorama des meacutediateurs existants en Bioinformatique
(1) K2Kleisli
Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute
deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave
avoir vu le jour en bioinformatique
Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus
expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection
Programming Language) (Hart et al 1994) En effet le langage CPL permet de
deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources
concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources
59
qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de
KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et
EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences
nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et
al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome
Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de
seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par
SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema
orienteacute objet
Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un
langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect
inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non
seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes
objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du
langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur
de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les
sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL
(2) TAMBIS
Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un
systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester
(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO
(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave
travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au
niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le
systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee
pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les
rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une
requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave
la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de
K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux
sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au
format HTML
TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec
OWL qui sont des langages plus expressifs
52
httpwwwncbinlmnihgovdbEST 53
httpgdbwwwgdborg
60
Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa
besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier
avec un langage de requecircte particulier
(3) DiscoveryLink
DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de
DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une
architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire
drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)
utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute
syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont
soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute
lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les
adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator
(Arenson 2003) mais fonctionne toujours selon le mecircme principe
(4) BACIIS
Le projet BACIIS (Biological And Chemical Information Integration System) est un
systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS
BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique
de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le
langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois
dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes
organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees
(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que
rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)
La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de
donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de
donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet
drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme
drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux
inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la
correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme
permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration
54
httpwwwalmadenibmcomcsgarlic
61
312 Le systegraveme navigationnel
Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche
drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris
Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet
de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave
construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques
sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes
sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont
transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle
permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les
sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte
peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations
A) Deacutefinition
Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes
mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec
des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires
telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins
et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)
Notons que compareacute au nombre important de sources de donneacutees actuellement
disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin
dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research
(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les
sources les plus importantes partagent des identifiants mais nombreuses sont celles plus
petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que
partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences
souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les
interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle
atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur
augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive
(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee
par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet
Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger
rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne
neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est
fait encore aujourdrsquohui manuellement
B) Exploitation des reacutefeacuterences croiseacutees
Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un
premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple
62
Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des
informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)
Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune
mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave
des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes
sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas
neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-
reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour
La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur
lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous
consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le
montre lrsquoexemple de la Figure 5
Figure 5 Exemple de partage de reacutefeacuterences entre les sources
Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans
lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero
drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en
gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)
Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les
mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la
reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct
55
httpwwwncbinlmnihgovomim 56
httpamigogeneontologyorgcgi-binamigogocgi
63
La Figure 6 illustre le graphe de liens existants entre les quatre sources pour
reacutepondre agrave la requecircte
Figure 6 Graphe de liens entre les sources
En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent
Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3
Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle
possegravede afin drsquointerroger Source1 et Source2
La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune
boucle apparaicirct dans le parcours des sources
Table 2 Les deux deacuteroulements possibles
Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date
Sceacutenario 1 Sceacutenario 2
Requecircte avec une date sur S1
Requecircte sur S2
Agrave partir de id2 tireacute de S1
Requecircte sur S3
Requecircte avec une date sur S3
Requecircte sur S1 et S2
A partir de id1 et id2 tireacutes de S3
64
Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs
chemins possible pour obtenir les donneacutees souhaiteacutees
Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur
simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure
apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de
la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire
La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle
nrsquoapporte aucune information suppleacutementaire
Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer
les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-
section suivante
C) Panorama des systegravemes navigationnels existants en Bioinformatique
Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de
plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour
le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins
traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont
eacutevalueacutes ces diffeacuterents chemins
(1) Le systegraveme SRS
SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par
lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and
Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par
LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques
de donneacutees (Zdobnov et al 2002)
SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme
drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de
description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And
Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est
drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les
donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index
sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche
drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un
entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees
Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en
mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et
57
httpwwwbiochipnetcomnode1561
65
donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et
beaucoup de banques speacutecialiseacutees
ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences
permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de
relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences
La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web
SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot
cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent
ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la
recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-
reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations
compleacutementaires contenues dans drsquoautres sources
Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques
pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des
sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une
mecircme requecircte
(2) Le systegraveme BioMediator
Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave
lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de
transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses
reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger
Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et
lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur
Le systegraveme BioMediator suit une conception modulaire composeacute de six composant
(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees
biologiques structureacutes et semi-structureacutees
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de
66
Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds
repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de
meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre
une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes
dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe
PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin
PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte
et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes
dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)
(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI
Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema
meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de
scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation
seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees
(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte
XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)
(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des
regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les
requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs
chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins
Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork
et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui
correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une
confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite
Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur
plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des
chemins possibles plutocirct qursquoune liste reacuteduite
(3) Le systegraveme BioNavigation
BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle
Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)
Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation
drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne
pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont
lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau
physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique
58
httpprotegestanfordedu 59
httpwwwxmlcompuba20030611qexohtml
67
ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces
entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)
Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes
entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la
construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les
citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute
lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo
BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une
requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur
des moyens pour eacutevaluer et optimiser les choix de chemins
Figure 8 Exemple de graphe dentiteacutes (Niveau logique)
Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction
du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps
drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and
Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour
reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs
paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans
BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et
sont classeacutes selon trois paramegravetres
68
La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un
chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)
ougrave e1 est une entreacutee de S1 et e2 de S2
La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale
Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution
locale et les deacutelais drsquoaccession aux sources
Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le
satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la
probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le
nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du
chemin le plus efficace en temps
(4) Le systegraveme BioGuide
Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche
navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des
utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet
BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils
bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus
drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine
biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils
et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces
graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y
seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type
de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et
des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous
la forme de chemins entre les sources Ces chemins sont construits en respectant les
preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix
Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la
preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins
geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute
drsquoutilisation
Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat
drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les
diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de
strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes
au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la
requecircte et iii) visitent une source donneacutee une seule fois
69
Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de
lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte
et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)
(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans
le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La
requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se
compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur
le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave
partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des
chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees
Figure 9 Architecture de BioGuide
Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler
ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de
strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou
les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide
ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand
nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees
divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)
70
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)
Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees
reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema
global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis
exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse
est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les
donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique
transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle
Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations
individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et
surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave
lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il
est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce
qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees
global
321 Deacutefinition et Architecture
A) Deacutefinition
Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit
lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non
volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest
pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se
caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)
Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes
Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet
et neacutecessaires aux besoins drsquoanalyse dans une structure unique
Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees
en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour
reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le
reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources
Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la
reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont
non volatile elles ne disparaissent pas apregraves les mises agrave jours
60
httpenwikipediaorgwikiBill_Inmon
71
Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont
permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct
consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent
Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les
valeurs particuliegraveres dans le temps
Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils
drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter
facilement les donneacutees
B) Architecture
Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en
deacutetaillant les diffeacuterentes couches qui le constituent
Figure 10 Architecture dun entrepocirct de donneacutees
Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et
heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data
Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes
depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line
Analytical Processing) (voir la sous-section 322)
Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)
syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend
les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la
hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees
fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-
72
Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui
repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations
concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur
structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct
Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes
vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)
lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux
structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees
inteacutegreacutees dans le systegraveme cible
Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et
une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant
logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape
drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans
un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de
donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme
logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees
neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par
source ou un middleware pour toutes les sources
73
Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees
Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave
effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct
de donneacutees Ce processus de transformation requiert la mise en correspondance
structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de
lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-
scheacutemas ou appariement de scheacutemas (schema matching)
Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent
du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est
interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de
scheacutema et de correspondance inter-scheacutemas
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute
S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et
G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents
types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un
eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison
drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs
(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles
(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel
74
Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes
qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les
critegraveres de classification suivants (Rahm and Bernstein 2001)
Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir
des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au
niveau du scheacutema
Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des
eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-
structures complexes de scheacutemas
Langage versus contrainte Les correspondances peuvent se baser sur des
approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute
de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)
Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la
relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre
scheacutema ceci menant agrave quatre cas 11 1n n1 nm
Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne
reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires
telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees
Il faut noter que certains algorithmes effectuent les correspondances en se basant
sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel
Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W
Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement
transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la
deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement
dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs
caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des
systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car
les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)
Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP
pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes
sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des
modifications freacutequentes et des volumes de donneacutees par transaction relativement faible
Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour
preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une
75
reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de
modification
Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont
qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est
reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes
sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser
une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de
grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus
complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas
correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux
de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est
entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil
contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de
chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de
lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une
alimentation reacutefleacutechie et planifieacutee dans le temps
324 Les modegraveles des entrepocircts de donneacutees
La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees
transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de
donneacutees repose sur un modegravele multidimensionnel de donneacutees
A) La modeacutelisation conceptuelle
La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association
(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)
en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de
nouvelles entiteacutes
De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave
comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation
E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute
(1) Concept de fait de dimension et de hieacuterarchie
Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse
des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que
lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur
fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction
tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees
76
en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62
Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors
qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble
drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs
Figure 13 Exemple de cube de donneacutees
Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les
attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une
dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes
relations drsquoordre entre ses attributs
Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois
dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps
Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la
proteacuteine
(2) Modegraveles en eacutetoile en flocon et en constellation
A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees
simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure
est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente
visuellement une eacutetoile on parle de modegravele en eacutetoile
61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres
correspondant aux formations faisant varier les mesures de lactiviteacute 62
Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63
Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail
77
Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce
scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions
autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute
eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions
Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la
modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la
modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de
dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et
al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions
Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au
sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la
normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball
2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des
dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend
plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema
augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte
Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en
trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en
quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo
Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui
utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs
faits et des dimensions communes (Benitez-Guerrero et al 2001)
B) La modeacutelisation logique
Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation
multidimensionnelle Il est possible dutiliser
un systegraveme de gestion de bases de donneacutees existant tels que les SGBD
relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)
un systegraveme de gestion de bases de donneacutees multidimensionnelles
(MOLAP)
Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de
bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line
Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere
suivante
Chaque fait correspond agrave une table appeleacute table de fait
Chaque dimension correspond agrave une table appeleacutee table de dimension
78
Figure 14 Modegravele en eacutetoile
Figure 15 modegravele en flocon
Figure 16 Modegravele en constellation
79
Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes
et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension
contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la
table de fait
Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de
lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel
se traduit ainsi
Chaque fait correspond agrave une classe appeleacutee classe de fait
Chaque dimension correspond agrave une classe appeleacutee classe de dimension
Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on
utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par
(Object Data Management Group) lrsquoODMG64
Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme
multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD
multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce
tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant
aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-
calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les
systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer
Les systegravemes MOLAP apparaissent comme une solution acceptable pour le
stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne
deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont
consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression
doivent ecirctre utiliseacutees
Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de
redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les
utiliseacutees sont
Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun
des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un
ensemble de faces diffeacuterents
Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune
dimension
Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune
repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble
64
wwwodmgorg
80
de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de
dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune
opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas
connu agrave lrsquoavance
C) La modeacutelisation de donneacutees XML multidimensionnelles
Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards
tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant
disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent
chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage
drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un
environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees
XML est de les convertir en donneacutees relationnelles Cependant mettre en place un
entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche
inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes
dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery
Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and
Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction
pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML
Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque
document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme
respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la
validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier
repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile
ou en flocons de neige
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing
81
La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave
lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel
multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute
en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette
approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur
leurs contenus
Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document
XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun
ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et
hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au
modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML
325 Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis
les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest
reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les
donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et
non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en
œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de
lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique
(Davidson et al 2001 Hernandez and Kambhampati 2004)
La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut
stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees
provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la
gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo
La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des
donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par
thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en
consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs
sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un
thegraveme
La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au
sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes
sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement
82
La transformation de donneacutees lors de lrsquointeacutegration Le processus de
transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de
reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration
verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce
processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de
reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema
La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles
localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees
provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte
(2) Problegravemes rencontreacutes
Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction
de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des
sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction
des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette
tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection
drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment
de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct
Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages
des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees
des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)
Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport
aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et
comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes
increacutementaux
Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car
les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations
ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches
drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique
A) GUS
Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand
entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS
est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les
maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux
proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support
pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et
83
lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour
stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative
2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al
2007)
Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts
(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et
annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de
nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et
dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il
possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat
drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des
donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS
chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de
regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale
B) GEDAW
Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees
deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des
eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de
Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse
des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees
dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves
disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de
GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches
biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees
inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie
GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees
structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology
UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de
correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme
instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent
ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences
renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)
ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est
incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut
lui aussi eacutemettre des regravegles de nettoyage des donneacutees
65
httpplasmodborgplasmo 66
httpwwwcbilupenneduepcondb42 67
httpwwwncbinlmnihgovprojectsSNP
84
Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les
scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-
mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de
deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de
transformer les structures des sources vers une forme canonique (le scheacutema global) Dans
le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour
identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres
pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des
informations
C) BioWarehouse
BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de
construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de
bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de
BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot
Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le
chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de
lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de
BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source
correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le
chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la
seacutemantique et du scheacutema global
Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un
fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des
donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations
drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas
freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation
drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir
de diffeacuterents modules
Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema
relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou
commerciales comme ORACLE
68
httpbiocycorg 69
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
85
D) GenMapper
GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques
biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene
UniProt GO InterPro KEGG et OMIM
Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema
global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic
Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les
donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales
que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source
comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le
systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le
reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu
dans le scheacutema GAM
GenMapper propose une interface conviviale de conception de requecircte ougrave
lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il
choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur
GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de
deacutepart
GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes
drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche
drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes
E) GEWARE
GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees
qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations
sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types
drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la
creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP
Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits
correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations
et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees
en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-
down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations
GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les
analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper
70
httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71
httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
86
est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees
sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare
4 DISCUSSION
Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la
recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes
drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee
Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les
donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les
rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle
au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix
en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter
Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32
fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans
un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les
donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs
propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees
inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche
permettant de lutter efficacement contre les donneacutees inconsistantes provenant de
diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands
volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la
conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes
drsquoanalyses ulteacuterieures
Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des
approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches
conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct
deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside
dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour
Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de
lrsquoaccessibiliteacute de ces sources externes
La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration
horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires
et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes
sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de
compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes
ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne
87
peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et
qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des
principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de
maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune
source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un
certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent
de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes
De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le
modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les
avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees
biologiques et avons dresseacute un panorama des solutions existantes en informatique en
montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques
88
Deacuteuxieacute meacute Partieacute
89
90
CHAPITRE 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp
91
Chapitre 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes
donneacute eacutes deacute Pseacuteudomonas sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91
2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101
31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101
32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102
33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107
34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113
36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117
5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123
1 INTRODUCTION
Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties
sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si
depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour
ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte
92
lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre
drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et
techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en
informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un
entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-
structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques
meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit
drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus
biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes
conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la
litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les
avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees
(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave
certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent
motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de
recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des
donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce
domaine font souvent appel agrave des traitements trop complexes pour tourner sur des
donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester
sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique
est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres
et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui
est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le
meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un
systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour
exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une
bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees
peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur
La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la
deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des
donneacutees
La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout
nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de
PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs
formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs
du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre
exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees
publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une
eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees
93
geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees
cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence
pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les
sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les
donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave
identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees
La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est
drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de
donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes
reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global
de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees
provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour
Respecter la fiabiliteacute de lrsquoinformation
Respecter la coheacuterence des informations une mecircme donneacutees pouvant
provenir de deux sources diffeacuterentes il faut alors choisir la plus
judicieuse
Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de
maniegravere unique une donneacutee
Unifier la repreacutesentation des donneacutees
Veacuterifier la non-redondance des informations
Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer
les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral
lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)
lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des
sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et
seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin
drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et
autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des
donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement
logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de
transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de
donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration
ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-
based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute
effectueacutee automatiquement en se basant sur quelques API (Application Programming
Interface) de java
94
2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW
Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est
un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de
lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees
inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies
Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema
inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et
meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui
nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)
Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un
environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de
construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation
souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave
lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans
les approches top-down les scheacutemas des sources importent peu pour la conception du
scheacutema global Ils seront seulement pris en compte dans un second temps quand les
correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour
permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema
global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne
connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir
PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-
up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema
telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus
drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les
donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en
assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La
combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples
permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus
cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements
cellulaire
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW
Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees
comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases
de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et
de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les
95
diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees
meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du
niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations
complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque
source de donneacutees sa provenance son contenu et sa structure
211 Bases de donneacutees geacutenomique et proteacuteique
PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du
gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une
collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de
donneacutees
GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee
comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont
publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al
2011) Cette base de donneacutees est produite au sein de NCBI (National Center for
Biotechnology Information) comme une partie de la collaboration internationale
des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal
Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs
reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de
380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre
des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines
avec la taxonomie le geacutenome le mappage la structure et les domaines
drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed
GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format
XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour
speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des
gegravenes et des seacutequences soumises
Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de
donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus
(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines
leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les
donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est
met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut
suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant
189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les
donneacutees en format HTML XML et Fasta
72
httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml
96
PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation
Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des
informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur
les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC
contient principalement des informations deacutetailleacutees sur les structures des opeacuterons
et des promoteurs y compris une eacutenorme collection des sites de liaisons et de
facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison
reacutegulateurs est disponible et une matrice du poids de position (position weight
matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la
litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave
plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du
serveur du PRODORIC par la technologie SOAP via le protocole HTTP en
utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit
eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux
utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs
propres programmes
212 Bases de donneacutees meacutetaboliques
KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme
humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est
consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique
(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux
moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les
informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de
donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions
(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus
respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers
chimique
Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies
(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus
cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du
SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui
facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique
Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure
drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes
(Kanehisa et al)
74
httpwwwprodoricde
97
213 Bases de donneacutees Enzymatique
PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees
enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la
collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles
agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme
une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et
deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique
de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites
directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en
biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des
programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est
veacuterifieacutee manuellement par au moins un biologiste et un chimiste
Le contenu de BRENDA couvre des informations sur la fonction la structure
loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des
donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et
lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que
laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des
caracteacuteristiques de la structure
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de
PseudmonasDW
Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont
plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la
litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction
drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative
Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-
hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave
aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on
parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)
que drsquoentrepocirct de donneacutees (ou data warehouse)
Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des
donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema
inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine
le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct
98
Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa
complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser
notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour
une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les
instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees
drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM
(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est
baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware
nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de
cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans
le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques
qui sont accessible via le web (Briache et al 2012)
Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de
donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment
impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de
lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de
lrsquoarchitecture du systegraveme
La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves
aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)
Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al
2003)
Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un
flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest
acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit
drsquoune technologie informatique intergicielle (comprendre middleware) permettant
drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une
autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees
dans les applications des transformateurs qui manipulent les donneacutees et des mises en
correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est
lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW
Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont
uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos
Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre
des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees
dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW
est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque
source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers
99
occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un
adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte
approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements
suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de
donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les
fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave
partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP
Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de
performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de
lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees
au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les
combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux
obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au
format HTML
Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par
lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation
qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees
Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des
services web Finalement le systegraveme transforme les donneacutees extraites en un format
commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser
une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le
scheacutema global par des regravegles de correspondances deacutefinies (mappings)
Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle
en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons
aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un
entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du
systegraveme est citeacute dans la section suivante
75
httpjenaapacheorg 76
httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77
httpexistsourceforgenet
100
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW
101
3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE
LrsquoENTREPOT DE DONNEES PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans
cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de
plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)
le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees
drsquoorigine
En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon
deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les
donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par
SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme
un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration
seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du
PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source
et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement
agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une
description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW
31 Scheacutemas de source
La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW
constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude
deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour
deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons
creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont
consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les
sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes
102
de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale
sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA
32 Services de donneacutees
Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees
et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration
(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees
accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute
comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons
deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons
deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du
Web
Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs
en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent
ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation
de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au
protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des
103
applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un
modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et
srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un
service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de
meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les
services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes
et reacuteutilisables raquo
Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la
fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture
adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service
Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le
protocole Web raquo
321 Architecture du service de donneacutees dans PseudmonasDW
Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)
Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de
diffeacuterentes sources de donneacutees
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW
Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux
sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document
104
XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa
seacutemantique comme un service web La seacutemantique du service Web inclut des informations
sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans
le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de
donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de
service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application
Programming Interface)
LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois
meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document
XML La structure du ce document doit satisfait les contraintes du scheacutema de la source
Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux
meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema
XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur
la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)
Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux
diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant
geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au
service Web La partie importante de la classe Service est de tenir la correspondance entre
la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de
donneacutees Autrement dit la classe service est responsable de mettre des correspondances
entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees
322 Impleacutementation du service de donneacutees dans PseudmonasDW
Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache
Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter
le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous
les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le
fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du
service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute
webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service
78
httptomcatapacheorg 79
httpwsapacheorgaxisoverviewhtml
105
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web
La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier
deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des
proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement
ltservicegt (Figure 22)
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web
Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont
Lrsquoattribut name indique le nom du service web
Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute
pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider
106
Java RPC qui permet drsquoexposer une classe Java quelconque en tant que
service Web
Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements
ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes
Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la
classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le
chemin vers la classe java compileacutee associeacutee au service Web (nous referons
ici agrave la classe Service)
Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes
exposeacutees par le service Web La valeur speacuteciale indique que nous avons
exposeacutes toutes les meacutethodes du serveur Web
La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service
dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil
drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur
de deacuteploiement du service via la commande suivante
java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd
-httphostnameportnumberwebServiceFolderNameservicesAdminService
Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService
WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute
effectueacutee par la saisie de la direction lsquohttphostnameportnumber
webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis
drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement
107
33 Scheacutema Inteacutegrateur du PseudmonasDW
Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de
sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche
deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de
lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les
donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute
effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des
sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct
est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des
informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune
redondance au niveau du scheacutema inteacutegrateur
Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des
informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour
identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons
appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du
scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema
global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
laquo Le scheacutema global correspond agrave la description des relations entre toutes les
donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de
leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo
(King et al 2008)
En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la
deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel
modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre
exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW
Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la
reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
(Figure 24)
108
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW
Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un
scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une
interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une
ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema
conceptuel
Une ontologie de domaine est une laquo description intentionnelle de ce qui nous
connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des
concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine
de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre
domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses
caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une
terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure
lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts
Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees
par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui
modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel
simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui
repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les
proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie
109
peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la
cateacutegorie des concepts relieacutes aux sources de donneacutees
Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les
entiteacutes biologiques (par exemple les classes gene genome protein
enzymehellip)
Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes
reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple
le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans
lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de
donneacutees originales Ce type de concept a un rocircle tregraves important pour garder
les traces de donneacutees dans PseudmonasDW
Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de
proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les
individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype
properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de
PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes
des objets
Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au
niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les
eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des
objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees
Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur
drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation
speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code
pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate
(Roychoudhury et al 1992)
Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase
sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo
algU reacutegule le gegravene algD
Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes
abreacuteviations que leurs gegravenes
Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif
Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132
110
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)
A partir de cet exemple nous pouvons deacuteduire
Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo
Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux
concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo
Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts
lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo
pour le concept lsquoEnzymersquo
Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du
concept lsquoProteinrsquo
Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie
standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de
OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de
domaine qui preacutesente une simple hieacuterarchie des concepts
34 Correspondances seacutemantiques entre les scheacutemas
En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin
drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements
approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de
ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une
111
des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees
(Toumani et al 2007)
Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As
View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des
sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente
une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue
deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de
donneacutees
Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de
sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de
correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de
donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que
nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA
P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath
Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie
En geacuteneacuterale nous avons deacutefinie trois types de mappings
112
Mapping des Classes ce type de mappings deacutefinie des associations entre les
classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere
suivante
XPath-Element-Location Ontology-Class-Name correspondence-
index
Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement
du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo
repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie
lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine
la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave
100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de
mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema
du BRENDA
ResultEnzymeEnzyme100
ResultEnzymeFunctional_ParameterKMKM100
Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les
proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il
srsquoeacutecrie comme suit
XPath-Domain-Location XPath-value-Location Ontology-Domain-
Name Property-Name correspondence-index
Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du
scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment
lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son
rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent
respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la
proprieacuteteacute de type de donneacutees lsquohasValuersquo
ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional
_ParameterKMKM_ValueKMhasValue100
ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu
nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal
ue100
Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes
drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere
suivante
113
XPath-Domain-Location XPath-Range-Location Ontology-Domain-
Name Ontology-Range-Name Property-Name correspondence-index
Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo
deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la
proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo
et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau
de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet
Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee
au scheacutema de source
ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti
onal_ParameterhasFunctionalParameter100
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web
Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des
infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de
programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application
distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour
mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter
tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains
drsquoentre eux
Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par
le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration
de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est
baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic
Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de
base pour construire des applications de Web seacutemantique il est disponible en tant que
serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour
consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)
Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le
meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire
seacutemantique (Semantic Directory)
Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et
al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure
27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO
est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les
relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV
114
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core
Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum
des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique
Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents
types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core
Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware
pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)
getOntology( url) listOntologies() and listOntologies(concept)
Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies
enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les
impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les
correspondances (mappings) entre le scheacutema de cette ressource et les ontologies
enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux
utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(
serviceName url queryMethod schemaMethod))
Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface
drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies
Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux
diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos
services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a
permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre
disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et
115
solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de
deacutetail dans la section 36)
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM
36 SB-KOM System Biology Khaos Ontology-based Mediator
Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un
systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute
SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes
2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a
eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des
sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est
composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et
lrsquoeacutevaluateurinteacutegrateur
Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et
coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des
116
reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et
assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes
provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats
conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en
terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type
de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient
les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de
domaine
Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des
plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans
geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees
pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees
Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il
y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de
domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des
scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees
seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme
correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath
sont actives dans la proprieacuteteacute
Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte
conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de
concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres
Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous
1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux
groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats
ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux
arguments (les proprieacuteteacutes)
2 Construire GS un ensemble de combinaisons entre les deux groupes en se
basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave
cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes
3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les
mapping enregistreacutees au niveau de SD-Core
4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les
arguments preacutedicats
a La variable instancieacutee constitue le nœud racine
b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour
la variable instancieacutee et les eacuteleacutements qui ne contiennent que la
variable instancieacutee (sans les autres variables) seront passeacutes au nœud
courant et eacutelimineacutes de GS
117
c Les eacuteleacutements qui contiennent une autre variable en plus de celle
instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres
nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees
seront repreacutesenteacutes par drsquoautres variables qui seront des variables
instancieacutees
d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour
chaque nouvelle variable instancieacutee
LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de
requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes
dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de
lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans
lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees
souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit
des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant
les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de
services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie
des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de
domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de
requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations
inutiles
4 PROCESSUS ETL DANS PSEUDOMONASDW
Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer
comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus
drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise
par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive
suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct
Ans(PEOGPW)-
Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym
e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)
ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn
(PPW)
Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee
lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un
organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de
cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies
118
meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des
donneacutees sur le gegravene qui code pour elle
Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en
terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de
donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P
Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient
les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de
cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de
donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism
IsEnzyme CodedBy et ParticipateIn) (Figure 29)
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge
La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et
qui sont relieacutees aux
Organism par le biais de la relation ForOrganism
Pathway par la relation ParticipateIn
Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi
agrave la classe Organism par la relation ForOrganism
Gene par la relation CodedBy
Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une
fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au
planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la
119
requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique
lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan
drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un
ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les
preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et
appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par
la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par
le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes
possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3
A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire
des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables
instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux
variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave
exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave
lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut
pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend
Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe
agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la
proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils
deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees
lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations
ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus
lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend
au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees
120
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte
Groupe Sous-requecircte Service de Donneacutees
G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA
Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors
que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque
nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes
par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-
requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave
lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter
Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant
Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour
notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la
proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le
nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de
classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques
dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-
requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de
donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee
avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher
les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce
que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le
service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)
parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG
Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments
(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes
lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo
A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees
extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des
instances des scheacutemas XML des sources sous-jacentes Le composant
Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles
121
de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine
enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de
domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles
sont produites de services de donneacutees diffeacuterents Afin de les associer
lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au
niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de
domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant
EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat
obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees
extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est
automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java
(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-
db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees
XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de
donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW
122
Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL
(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees
souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les
services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la
transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les
instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer
dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La
derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a
permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif
(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein
de PseudmonasDW
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
123
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
5 DISCUSSION ET CONCLUSION
Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels
du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en
bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et
donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui
caracteacuterisent les donneacutees biologiques
Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et
analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon
doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus
quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont
pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques
caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique
De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus
complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de
processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute
La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie
par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel
environnement
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de
Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de
multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement
drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et
reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes
124
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes
Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour
extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs
forment une partie importante dans les services de donneacutees qui fournissent des moyens
pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de
donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une
interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les
donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM
Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous
somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui
offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De
cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance
(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema
inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de
domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts
et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de
lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement
aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees
dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques
bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration
seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs
avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement
stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre
part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le
meacutediateur
Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que
leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se
distingue des autres sur diffeacuterents points
125
Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une
diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de
connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique
et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des
donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de
GO
Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement
adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique
appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans
PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema
global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema
afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une
modification profonde du scheacutema
Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des
sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des
donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas
la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la
non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute
Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation
Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne
maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans
PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local
dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
126
CHAPITRE 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp
127
Chapitre 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes
Pseacuteudomonas Sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163
1 INTRODUCTION
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces
bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de
certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee
par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et
chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute
de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de
Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique
128
Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de
donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme
Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI
Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82
National Center for Biotechnology Information (NCBI) Microbial Genomes83
(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de
donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques
sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne
pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que
Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site
Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune
grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent
sur le suivi des changements des annotations et de permettre leur comparaison entre les
espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part
Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees
fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de
donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et
fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais
manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les
voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas
la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees
qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas
aeruginosa PAO1
Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le
chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui
regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece
de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour
une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase
de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les
acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique
aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de
PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires
concernant les espegraveces de Pseudomonas
80
httpimgjgidoegov 81
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82
httpwwwxbaseacuk 83
httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84
httpwwwmicrobesonlineorg 85
httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86
httpwwwpseudomonas-syringaeorg 87
httpwwwpseudomonascom
129
2 MODEacuteLISATION DE PSEUDOMONASDW
Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il
est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de
passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les
proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle
dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de
nombreux choix qui auront des reacutepercussions importantes dans la suite
La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux
drsquoabstraction diffeacuterents
Modegravele conceptuel repreacutesente le contenu de la base en termes
conceptuels indeacutependamment de toute consideacuteration informatique
Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un
scheacutema propre agrave un type de base de donneacutees
Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et
drsquoaccegraves aux donneacutees de la base
La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des
systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins
des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle
consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux
domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains
aspects des systegravemes physiques ou humains et de leur environnement
Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee
gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling
Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et
son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques
et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur
lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par
ce langage pour la conception de PseudomonasDW
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW
Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de
PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une
88
Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage
130
fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle
joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)
et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun
utilisateur exteacuterieur le voit
Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur
(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le
biologiste)
Table4 La liste des acteurs
Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via
lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies
par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit
Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en
introduisant son URL
Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des
mots cleacutes via son interface web
Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en
utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme
a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)
Table5 les cas drsquoutilisation de lrsquoutilisateur
Acteur Cas drsquoutilisation
Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet
PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web
Administrateur Le superviseur du systegraveme
Cas drsquoutilisation
Etablissement drsquoune connexion avec le systegraveme
Interrogation du systegraveme
Analyse de donneacutees
131
b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)
Figure 33 Le diagramme de cas dutilisation de lutilisateur
PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees
stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du
PseudomonasDW sont comme suit
Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par
lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du
systegraveme
Construction du reacutesultat
Translation du reacutesultat en un format lisible par lrsquoutilisateur
a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)
Table 6 les cas drsquoutilisation de PseudomonasDW
Cas drsquoutilisation
Translation de la requecircte
Construction du reacutesultat
Translation du reacutesultat
132
b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW
Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer
nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser
lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent
le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit
Inteacutegration de donneacutees au sein de PseudomonasDW
Nettoyage de donneacutees en eacuteliminant les redondances
Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de
donneacutees en fonction des sources originales
Maintenance de lrsquoentrepocirct de donneacutees
Maintenance de lrsquointerface Web
Ajout des fonctionnaliteacutes en cas de besoin
a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)
Table 7 les cas drsquoutilisation de lrsquoadministrateur
Cas drsquoutilisation
Inteacutegration de donneacutees
Nettoyage de donneacutees
Mise agrave jour de donneacutees
Maintenance de PseudomonasDW
Maintenance de lrsquointerface Web
Ajout de fonctionnaliteacutes
133
b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)
Figure 35 Le diagramme de cas dutilisation de ladministrateur
22 Diagrammes de seacutequence du systegraveme PseudomonasDW
Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets
selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects
dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes
sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute
drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du
Siemens Pattern Group (Buschmann et al 1996)
Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des
messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW
(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les
diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son
reacutecepteur
134
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur
Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de
PseudomonsDW
message eacutemetteur reacutecepteur
1 Demande de connexion Utilisateur Web app
2 Etablissement de connexion Web app Utilisateur
3 Envoi de requecircte via des formulaires HTML Utilisateur Web app
4 Reacuteception de requecircte Web app Web app
5 Geacuteneacuteration de requecircte XQuery Web app Web app
6 Envoi de la requecircte XQuery Web app PDW DB
7 Interrogation des indexes PDW DB PDW DB
8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB
9 Construction de reacutesultat XML PDW DB PDW DB
10 Transformation de reacutesultat de XML en XHTML PDW DB Web app
11 Affichage de reacutesultat en forma XHTML Web app Utilisateur
135
23 Diagramme de classes du systegraveme PseudomonasDW
Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la
modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les
composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des
eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations
Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les
diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de
la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir
les diffeacuterentes classes et relations composant notre diagramme de classe
Le diagramme de classe de PseudomonasDW est constitueacute de six classes
principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)
auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de
raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous
a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses
diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des
bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes
en trois sections la section supeacuterieure contient le nom de la classe la section centrale
deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les
diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation
qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui
sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de
composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base
3 IMPLEMENTATION DE PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese
est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de
Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les
applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources
multiples
Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre
diviseacutes en deux familles (Mahboubi et al 2009)
La premiegravere famille propose une modeacutelisation multidimensionnelle pour les
entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en
eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des
dimensions et offrent un support pour des outils danalyse
136
Les approches de la seconde famille abordent la probleacutematique de lentreposage de
documents XML Elles perccediloivent un entrepocirct XML comme une collection de
documents XML
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous
sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les
donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML
Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML
Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des
documents XML obtenus de la transformation des instances RDF au niveau de notre
entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons
donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases
de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees
XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)
31 Organisation des bases de donneacutees de PseudomonasDW
Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du
genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base
de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection
des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees
selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des
scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce
modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de
lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de
PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons
nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo
137
Figure 37 Le diagramme conceptuel de PseudomonasDW
138
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW
Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees
Genomes complets
Pseudomonas aeruginosa PAO1 6264404 5682 5556
Pseudomonas aeruginosa M18 6327754 5764 5684
Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269
Pseudomonas aeruginosa LESB58 6601757 6061 5908
Pseudomonas aeruginosa PA7 6588339 6369 6246
Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886
Pseudomonas fluorescens PfO-1 6438405 5829 5714
Pseudomonas fluorescens Pf-5 7074893 6233 6137
Pseudomonas fluorescens SBW25 6722539 6106 5921
Pseudomonas fluorescens F113 6845832 5953 5862
Pseudomonas putida F1 5959964 5403 5245
Pseudomonas putida GB-1 6078430 5529 5408
Pseudomonas putida KT2440 6181863 5516 5350
Pseudomonas putida W619 5774330 5309 5182
Pseudomonas putida BIRD-1 5731541 5046 4960
Pseudomonas putida S16 5984790 5307 5171
Pseudomonas syringae pvphaseolicola 6112448 5437 5172
Pseudomonas syringae pvtomato 6397126 5688 5481
Pseudomonas syringae pvsyringae 6093698 5220 5089
Pseudomonas stutzeri A1501 4567418 4210 4128
Pseudomonas stutzeri DSM 4166 4689946 4372 4301
Pseudomonas stutzeri ATCC 17588 4547930 4287 4181
Pseudomonas entomophila L48 5888780 5275 5134
Pseudomonas mendocina ymp 5072807 4704 4594
Pseudomonas mendocina NK-01 5434353 5035 4954
Pseudomonas brassicacearum NFM421 6843248 6176 6081
Pseudomonas fulva 12-X 4920769 4540 4459
Genomes incomplets
Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207
Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905
Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221
Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096
Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402
Pseudomonas chlororaphis - - 218
Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts
(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie
meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements
figureacutes directement apregraves lrsquoeacuteleacutement racine
Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur
organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees
correspondante
Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au
gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee
Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees
sous lrsquoeacuteleacutement laquoProteinDataraquo
139
Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans
PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte
deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes
Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les
diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans
lrsquoentreacutee
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1
32 Impleacutementation des bases de donneacutees de PseudomonasDW
En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees
sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML
deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la
version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome
qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute
Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des
servlets pour lrsquoaccegraves distant
89
httpjettycodehausorgjetty
140
La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de
charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents
XML dans 33 collections une collection pour chaque espegravece entreposeacute dans
PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre
application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery
Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de
fonctions de XQuery
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW
90
XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML
141
4 INTERFACE WEB DE PSEUDOMONASDW
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
41 Les Moteurs de rechercheacute dans PseudomonasDW
Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des
moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees
XML natives
Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les
pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur
quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute
qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de
recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de
recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas
parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu
laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ
speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-
down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la
proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave
minimiser le temps et la complexiteacute de la recherche
Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la
possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce
formulaire de recherche ou moteur de recherche propose des champs de recherche
multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de
Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein
Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons
aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs
espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la
possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees
Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant
de 1 agrave 33
142
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche
143
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute
144
Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue
nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave
quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de
donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML
et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues
HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a
eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et
convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de
PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans
quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis
Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML
Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta
Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3
42 Les entreacutees de Pseudomonas DW
Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq
sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la
section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont
listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune
section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de
PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee
dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails
des cinq sections
La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces
informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la
langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant
pour les proteacuteines et les ARN
La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en
question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom
scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les
diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la
seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de
transcriptions les sites de liaison et les sites de mutations ou de modification Cette section
offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du
gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A
partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage
145
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524
146
La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle
contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui
permet un affichage et une lecture tregraves simple Les informations de cette section sont
repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la
proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et
lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes
caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les
reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que
la seacutequence peptidique de la proteacuteine
La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine
deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission
numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees
enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions
catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats
et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des
informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des
informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des
paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo
La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans
lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement
propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de
donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)
lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie
meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique
preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les
composants et les modules de la voie meacutetabolique
Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les
entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou
lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo
deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas
(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis
Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la
proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la
retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la
proteacuteine dans des voies meacutetaboliques
147
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW
Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees
biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types
Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees
bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper
ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant
Ces outils doivent donc ecirctre
Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet
Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs
Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre
de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre
obligeacute de jongler avec diffeacuterentes sources dinformations
Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des
biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les
premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les
deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la
visualisation des annotations associeacutees Cette classification est toutefois quelque peu
scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de
donneacutees outils dinterrogation et outils de navigation sur le geacutenome
Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation
aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes
agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique
quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce
manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et
inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre
outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires
entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces
stockeacutees dans PseudomonasDW
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)
Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas
facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs
points forts et plusieurs faiblesses
91
DataBank browsers 92
Genome browsers
148
Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente
la meilleure application pour la geacutenomique comparative mais dautre part un autre
navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec
beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de
deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et
qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest
pas aussi riche que Ensembl
Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux
besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave
Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen
attentif
Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur
geacutenomique pour PseudomonasDW
Ensembl est toute une application libre de droit dauteur sur son code source
qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le
neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute
et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse
ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et
la deacutecouverte et la reacutesolution de bugs plus difficile
Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des
avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute
que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le
fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans
le site Web Or la plupart des bases et banques de donneacutees geacutenomiques
existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme
navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs
utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le
trouveront plus aiseacute agrave manipuler
Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur
geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des
geacutenomes en plus de la rapiditeacute qui est indispensable
Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs
geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux
autres navigateurs (Sen et al 2010)
93
httpgmodorgwikiGBrowse
149
511 GBrowse Vue geacuteneacuterale
GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui
correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de
donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord
speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des
subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut
national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License
(ou GPL)
GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation
graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres
eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives
comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave
ADN GBrowse propose les fonctionnaliteacutes suivantes
vue globale et vue deacutetailleacutee du geacutenome
deacutefilement zoom et centrage
utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien
personnaliseacutees
joindre une URL arbitraire agrave une annotation
ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur
final
recherche par ID annotation nom ou commentaire
connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95
support multi-langues
prise en charge des annotations agrave partir du format GFF96
persistance des paramegravetres de session agrave session
plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de
nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des
cartes de restriction eacutediter des fonctions)
512 Installation de GBrowse
Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous
avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite
lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons
eu besoin drsquoinstaller
94
httpwwwbiosqlorgwikiMain_Page 95
httpgmodorgwikiChado_-_Getting_Started 96
httpgmodorgwikiGFF
150
Apache Web Server97
Perl 598
Les modules de Perl suivants
o GCI
o GD
o DBI
o DBD mysql
o Digest MD5
o Text shellwords
Bioperl99
Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi
drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une
installation automatique de GBrowse
adminadmin~$ sudo apt-get install gbrowse gbrowse-calign
gbrowse-data
La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les
donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de
gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec
sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape
drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des
adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature
que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD
le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est
le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations
au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer
la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB
SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le
plus reacutecent des adaptateurs et le plus recommandeacute
513 Creacuteation et peuplement des bases de donneacutees MySQL
Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une
eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par
PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque
chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees
relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce
97
httphttpdapacheorg 98
httpdevperlorgperl5 99
httpwwwbioperlorgwikiMain_Page
151
contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la
banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos
besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers
GFF3
La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de
donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait
la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans
PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees
pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees
MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par
lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse
adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn
dbimysqlDB_Name --user root --password
varlibgbrowsedatabasesfilegff3
La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles
soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de
fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la
forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de
GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui
152
srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le
paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de
configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi
nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour
donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante
Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse
nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un
onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave
lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil
GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage
reacutesultante
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011
153
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW
521 Blast Vue geacuteneacuterale
Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences
(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une
seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme
dun package composeacute des programmes suivants
blastn blast nucleacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques
blastp blast proteacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
proteacuteiques
blastx blast nucleacuteique vs proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
proteacuteiques
tblastn blast proteacuteique vs nucleacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
nucleacuteiques
tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences
nucleacuteiques
Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse
comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir
teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une
base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme
lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle
base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA
Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais
son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct
de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees
proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute
une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette
application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de
le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web
154
522 La fonctionnaliteacute du Blast
Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les
seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la
page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de
PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans
PseudomonasDW
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW
La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la
possibiliteacute de PrimeblasterPrime ses seacutequences contre
Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences
(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences
agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees
comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le
choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la
partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses
extreacutemiteacutes
Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire
de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette
155
option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des
bases de donneacutees stockeacutees au niveau de PseudomonasDW
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW
156
Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java
lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en
extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le
sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs
drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi
deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement
une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui
sera retourneacutee agrave lrsquoutilisateur via son navigateur Web
Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral
Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme
de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une
petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine
lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes
seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession
dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les
scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en
deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage
drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement
obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple
drsquoalignement
157
Figure50 Exemple de reacutesultat de Blast
6 PDWiki
Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons
deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de
donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des
informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies
meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts
diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive
Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les
Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous
introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa
maniegravere drsquoaccegraves
158
61 Geacuteneacuteraliteacute sur les Wikis biologiques
Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat
sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web
sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre
simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun
navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est
maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des
donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis
biologiques (bio-wikis) comprennent
Le deacuteveloppement collaboratif et le partage des connaissances
Lrsquoannotation collaborative de contenus de bases de donneacutees
La creacuteation collaborative de contenus de bases de donneacutees
Le deacuteveloppement collaboratif et le partage de la documentation et des
connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un
consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des
nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de
conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont
geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de
recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets
biologiques speacutecialiseacutes
Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait
que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement
coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de
donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux
utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats
indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler
cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien
que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de
donneacutees elles-mecircmes restent inchangeacutees
La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans
les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de
donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement
deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums
et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite
100
httpwwwwikipediaorg
159
62 PDWiki Infrastructure et contenue
PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki
baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et
correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des
extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de
diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104
automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de
MediaWiki
MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de
nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen
des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une
bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de
MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le
principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des
bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de
lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La
classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees
de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe
lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo
est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure
geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec
PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle
elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo
PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de
PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le
premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations
suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour
chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de
plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas
limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et
lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus
La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee
correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans
PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le
101
httpwwwmediawikiorgwikiMediaWiki 102
httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103
httpwwwmediawikiorgwikiExtension_Matrix 104
httpenwikipediaorgwikiWikipediaBots 105
httpjwbfsourceforgenet
160
nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans
PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas
modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir
PseudmonasDW
La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle
appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece
Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page
speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations
suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom
de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au
moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo
La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque
espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page
lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est
conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW
Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les
utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par
lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils
peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces
informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les
interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie
de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les
sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies
meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs
peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des
reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les
activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier
les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des
informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents
composants dans la section lsquoPathwaysrsquo
Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources
dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et
contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee
161
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW
lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils
contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo
162
pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la
page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease
alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des
gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)
lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation
ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de
certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une
liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de
cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene
Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo
Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie
meacutetabolique apparaissant dans une page lsquoPDWEPrsquo
63 Comment naviguer dans PDWiki
Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la
recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des
pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur
163
gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct
sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est
de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de
recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les
pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au
sein de PDWiki en utilisant le formulaire de recherche
Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque
espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave
une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre
PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible
daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa
Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire
de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple
et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a
plusieurs avantages certains dentre eux sont
Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo
quand quelquun fait des modifications au niveau des pages de PDWiki
Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et
une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres
utilisateurs
Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages
qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106
7 DISCUSSION
Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes
modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm
2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves
Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de
Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans
cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base
de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des
bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire
agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur
lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les
plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de
106
httpwwwmediawikiorgwikiManualWatchlist
164
Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en
comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees
PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees
laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre
pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines
interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait
ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base
de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee
eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de
PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des
informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees
aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de
PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies
meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des
informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c
oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation
oxydative et la voie meacutetaboliques
Dautre part PseudomonasDW fournit des informations sur un ensemble plus
vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux
ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces
sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas
aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1
Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM
4166 et Pseudomonas chlororaphis
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
165
CONCLUSIONS ET PERSPECTIVES
166
Conclusions eacutet peacuterspeacutectiveacutes
Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante
bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3
comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon
rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur
mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile
et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P
syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain
Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des
infections pulmonaires mortelles chez les patients atteints de fibrose kystique
Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la
recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes
geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations
Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une
heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont
actuellement disponibles publiquement les types de donneacutees sont divers et les ressources
sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent
une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour
deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour
deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des
formats plus standard tels que XML (eg GenBank) A noter que les banques proposent
souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats
est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)
objet (eg Gus) ou semindashstructureacute (eg GenBank)
Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier
lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-
Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la
proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de
deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la
167
confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une
mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque
Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les
langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)
dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des
langages structureacutes tels que SQL (Genopage) ou OQL (Gus)
La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations
lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible
leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la
bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources
de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette
automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine
pour une recherche plus efficace des informations et une meilleure exploitation des
reacutesultats
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute
proposeacutees les approches navigationnel entrepocirct et meacutediateur
Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont
extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les
deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des
sources ce sont des portails et des meacutediateurs
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement
les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
168
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement
inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le
cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe
KHAOS de lrsquouniversiteacute de Malage
Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de
donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les
sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent
autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees
biologiques
Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des
sources de donneacutees biologiques et comportent une description des divers niveaux
drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des
solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme
navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine
entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une
inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine
biologique afin de proposer une solution drsquointeacutegration simple et flexible
Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre
des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin
drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee
1 REacuteSUMEacute DES CONTRIBUTIONS
Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne
fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur
exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se
sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent
169
principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que
possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers
et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos
travaux concernent plusieurs points
Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees
biologiques de Pseudomonas Sp
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas
requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de
donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi
proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees
heacuteteacuterogegravenes
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW
integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq
sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot
BRENDA et KEGG
Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les
donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie
importante dans les services de donneacutees qui fournissent des moyens pour interroger et
correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le
processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des
requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les
transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services
de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees
Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce
manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine
de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute
utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de
donneacutees un service pour une source de donneacutees
PseudomonasDW integravegre des sources de donneacutees offrant des informations
chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets
170
eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique
pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration
seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global
inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un
scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous
les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global
de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare
citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle
sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les
sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau
de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune
modification profonde
Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le
meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute
notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a
joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM
Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation
preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances
permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances
retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation
automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de
donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part
les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une
interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees
sont virtuellement acheveacutees en utilisant le meacutediateur
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
171
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune
installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave
certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige
une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse
surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la
plateforme Linux
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes
baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents
XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui
contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents
XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement
(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33
collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
172
Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques
pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons
incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il
affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des
gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est
un programme permettant de reacutealiser des alignements et des comparaisons locaux entre
deux seacutequences (nucleacuteiques ou proteacuteiques)
PseudomonasDW contient 170000 entreacutes et fournit des informations sur un
ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave
10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome
database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa
NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244
Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC
17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis
La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les
voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies
et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des
sections speacutecifiques pour les enzymes et les voies meacutetaboliques
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
2 OUVERTURE ET PISTES DE RECHERCHE
La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave
disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves
nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension
anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre
deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant
Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et
consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette
thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs
173
Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous
focalisant sur plusieurs points particuliers
Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW
Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance
accordeacutee agrave la source et sa qualiteacute estimeacutee
Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la
performance des donneacutees stockeacutees au niveau de PseudomonasDW
Automatiser la recherche de correspondance entre eacuteleacutements des
scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour
rendre lrsquoajout des nouvelles sources de donneacutees plus facile
Concernant lrsquointeacutegration des donneacutees
Inteacutegrer non seulement des sources de donneacutees mais aussi des services
Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres
anneacutees dans le domaine biologique et les perspectives offertes
semblent tregraves prometteuses
Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de
preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour
fouiller et comparer les donneacutees inteacutegreacutees
174
GLOSSAIRE
175
Glossaireacute
Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois
nucleacuteotides (codons) dans lrsquoARN
ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation
geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le
chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN
macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des
chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement
(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN
formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se
dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du
pheacutenomegravene de reacuteplication
Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions
hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus
complexe
Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences
codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation
syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les
entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit
les sources de donneacutees biologiques
API (Application Programming Interface) Interface pour langages de programmation
mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme
pour par exemple communiquer ou extraire des donneacutees
ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de
ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une
seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de
transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques
Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences
comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour
deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions
drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui
permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des
proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes
Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non
Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule
drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune
hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les
cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion
176
agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la
division cellulaire
Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros
serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et
unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture
est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees
Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte
deacutecisionnel deacutecentraliseacute
Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de
donneacutees exemple dimension temporelle dimension proteacuteique hellip
Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur
conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme
moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs
du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur
DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par
Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document
SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu
constitueacute par leurs sous-eacuteleacutements et leurs attributs
Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les
organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est
fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype
Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le
geacutenome nucleacuteaire
Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central
de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines
notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes
de reacutegulation
Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee
numeacuterique
FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et
William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le
programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines
Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et
porteur drsquoune information geacuteneacutetique
Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece
Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties
drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome
177
GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et
distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix
HTML (HyperText Markup Language) Langage de description de pages Web Un standard
initieacute par le W3C et compatible tous systegravemes
Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes
Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement
diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble
Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN
correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation
Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position
choisie)
Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme
drsquoun scheacutema de donneacutees
MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant
une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui
explique les performances Dans le second les jointures entre les tables de dimension et de fait sont
effectueacutees au moment de la requecircte
OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place
drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une
cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs
dimensions
Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin
OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de
lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant
Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave
linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le
deacuteclenchement de la transcription) et un ou plusieurs gegravenes
OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par
lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et
collections
Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports
baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration
systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau
(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de
maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec
celui-ci
178
Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique
(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique
notamment Un comportement particulier tout comme une combinaison de comportements
peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou
plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes
et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un
caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou
moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement
deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son
alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse
existe eacutegalement)
Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui
apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations
auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul
Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique
Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave
30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent
des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=
le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour
assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de
lrsquoinformation
Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une
comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un
support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou
ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees
compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus
ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit
syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le
type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et
quantifieacutes
Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser
les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le
principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave
CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot
contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN
tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-
repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du
meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De
maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment
correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de
caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents
dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des
suppresseurs de tumeurs
179
Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir
du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un
support meacutetallique et analyseacutees par spectromeacutetrie de masse
ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de
lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles
Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc
sous une forme plus deacutetailleacutee
Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe
concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine
informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des
informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux
neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies
Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides
amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN
(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage
drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit
fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes
Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie
par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides
(polymegraveres de nucleacuteotides)
Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet
indeacutependamment des plates-formes et des langages sur lesquelles elles reposent
SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels
permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du
domaine drsquoapplication
Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier
des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de
masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe
reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport
massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines
scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages
biologie meacutedecine
SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de
programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans
des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut
extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de
donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus
complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de
180
modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de
donneacutees et daccegraves
Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance
lrsquoidentification des formes vivantes et leur rangement dans une classification
Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome
URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur
uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant
lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour
adresser les ressources du World Wide Web telles que des documents HTML des images ou des
sons
Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet
Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct
et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux
ordinateurs et aux humains de travailler en plus eacutetroite collaboration
XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et
de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications
en diffeacuterents environnements hardware et software
Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements
dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un
sur-ensemble de XPath
181
ANNEXES
182
Anneacutexeacute 1 UML
La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996
UML est une norme de lOMG (Object Management Group) qui est un consortium des
principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive
homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune
seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants
UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent
ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre
UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des
systegravemes informatiques
Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur
Modegravele des classes capture la structure statique
Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages
Modegravele des eacutetats exprime le comportement dynamique des objets
Modegravele de deacuteploiement preacutecise la reacutepartition des processus
Modegravele de reacutealisation montre les uniteacutes de travail
Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant
correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de
diagrammes
Diagramme des classes structure statique il repreacutesente les classes
intervenant dans le systegraveme
Diagramme des eacutetatstransitions comportement dune classe en termes
deacutetats
Diagramme dobjets repreacutesentation des objets (des occurrences des
classes) et de leur relations ils correspondent agrave des diagrammes de
collaboration simplifieacutes (sans envoi de message)
183
Diagramme des paquetages un paquetage eacutetant un conteneur logique
permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le
Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages
crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions
Diagramme de structure composite permet de deacutecrire sous forme de
boicircte blanche les relations entre composants dune classe
Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs
interactions
Diagramme de communication repreacutesentation simplifieacutee dun diagramme
de seacutequence se concentrant sur les eacutechanges de messages entre les objets
Diagramme global dinteraction permet de deacutecrire les enchaicircnements
possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de
diagrammes de seacutequences
Diagramme de temps permet de deacutecrire les variations dune donneacutee au
cours du temps
Diagramme des cas dutilisation il permet didentifier les possibiliteacutes
dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les
fonctionnaliteacutes que doit fournir le systegraveme
Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration
en termes dactions
Diagramme de composants repreacutesentation des composants physiques
dune application
Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les
steacutereacuteotypes des classes ou des packages
Diagramme de deacuteploiement repreacutesentation du deacuteploiement des
composants sur les dispositifs mateacuteriels
184
Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes
Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la
premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de
Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute
dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant
devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une
deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante
Une base de donneacutees XML native deacutefinit un modegravele logique pour un document
XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au
minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du
document
Une base de donneacutees XML native gegravere le document XML comme une uniteacute
fondamentale de stockage comme une ligne dans une table relationnelle
Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent
particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique
orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers
compresseacutes indexeacutes
La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de
donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain
nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de
donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de
lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc
La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale
dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible
qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents
lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des
bases de donneacutees XML actuelles
La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas
important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de
185
donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest
pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait
envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees
XML native comme eXist lrsquoa fait agrave ses deacutebuts
Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement
pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les
transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des
langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc
parfaitement dans notre approche entiegraverement baseacutee sur XML
186
Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute
Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de
donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate
Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute
sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace
drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience
drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel
Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage
propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves
actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est
compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un
processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une
application
eXist fournit un stockage sans scheacutema des documents XML dans des collections
hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des
documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs
peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents
contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement
de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification
rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-
descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de
chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement
les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de
documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions
La base de donneacutees convient bien aux applications manipulant des petites ou larges
collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute
conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant
lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes
XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath
187
et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre
autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres
Architecture drsquoeXist
eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement
agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents
XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale
Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement
seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des
courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et
les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques
comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles
possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un
ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et
XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du
cœur drsquoeXist
eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut
fonctionner comme un processus serveur autonome fournissant des interfaces http et
XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles
peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut
fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-
RPC SOAP109 et WebDAV110 sont fournis par les servlets
Figure 53 Architecture deXist copy Wolfgang Meier
107
httpxmlrpcscriptingcomspechtml 108
httpxmldb-orgsourceforgenetxapixapi-drafthtml 109
httpwwww3org2000xpGroup 110
httpwwwietforgrfcrfc2518txt
188
BIBLIOGRAPHIE
189
Bibliographieacute
Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125
Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary
Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442
Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410
Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381
Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29
Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress
Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press
Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520
Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155
Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE
Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178
Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37
Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15
Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863
Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314
190
Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104
Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333
Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille
Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7
Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53
Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet
Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons
Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192
Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates
Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences
Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193
Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93
Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69
Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis
Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148
Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306
Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie
Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592
Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74
191
Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87
Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345
Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979
Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy
Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique
Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531
Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572
Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53
Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822
Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc
Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432
Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20
Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57
Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128
Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68
Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469
Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris
Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73
192
Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research
Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8
Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788
Gautier C (1981) Nucleic acid sequences handbook Praeger
Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523
Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance
Griffith A (2005) Java XML and the JAXP In Wiley (ed)
Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928
Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174
Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264
Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153
Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511
Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9
Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119
Harold ER and Means WS (2004) XML in a Nutshell OReilly Media
Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA
Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915
Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60
Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190
Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448
Hunter J (2003) X is for Query Oracle Magazine
Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York
Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)
193
Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541
Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology
Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)
Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30
Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357
Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280
Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59
Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169
Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley
Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337
Kimball R (2002) data warehouse toolkit
Kimball R (2003) The Bottom-Up Misnomer
King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18
Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper
Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web
Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597
Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283
Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138
Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni
Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170
194
Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268
Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441
List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215
MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA
Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562
Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144
Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348
Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105
Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381
Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378
Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755
McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)
McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587
Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34
Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376
Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477
Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537
Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall
Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65
195
Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269
Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga
Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622
Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230
Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2
Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846
Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125
Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350
Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163
Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171
Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)
Rehm B (2009) Pseudomonas Wiley-VCH
Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557
Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996
Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149
Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84
Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010
Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696
Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236
Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243
Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871
196
Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York
Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186
Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188
Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141
Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298
Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73
Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110
Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276
Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298
Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis
Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717
Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49
Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488
Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6
Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150
Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373
Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33
197
Reacute feacute reacutenceacutes Inteacuterneacutet
198
Reacute feacute reacutenceacutes Inteacuterneacutet
(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml
AmiGO httpamigogeneontologyorgcgi-binamigogocgi
Apache Server httphttpdapacheorg
ArrayExpress httpwwwebiacukarrayexpress
ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm
Axis httpwsapacheorgaxisoverviewhtml
BioCyc httpbiocycorg
BioGrid httpthebiogridorg
Bioperl httpwwwbioperlorgwikiMain_Page
biosql httpwwwbiosqlorgwikiMain_Page
Blast httpblastncbinlmnihgovBlastcgi
Bots httpenwikipediaorgwikiWikipediaBots
BRENDA httpwwwbrenda-enzymesinfo
Chado httpgmodorgwikiChado_-_Getting_Started
ChEBI httpwwwebiacukchebi
CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
core httpdublincoreorg
CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast
dbEST httpwwwncbinlmnihgovdbEST
dbSNP httpwwwncbinlmnihgovprojectsSNP
DDBJ httpwwwddbjnigacjp
Dublin Core httpdublincoreorg
EBI httpwwwebiacuk
EcoCyc httpecocycorg
EMBL httpwwwemblde
EMBO httpwwwemboorg
ensEMBL httpwwwensemblorgindexhtml
Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric
Entrez httpwwwncbinlmnihgovsitesgquery
EPConDB httpwwwcbilupenneduepcondb42
eXist httpexistsourceforgenet
199
ExPASy httpexpasyorg
ExPASy httpexpasyorg
Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix
FASTA httpwwwebiacukToolssssfasta
Flybase httpflybaseorg
Garlic httpwwwalmadenibmcomcsgarlic
Gbrowse httpgmodorgwikiGBrowse
GDB httpgdbwwwgdborg
Genbank httpwwwncbinlmnihgovnuccore
GeneCards httpwwwgenecardsorg
GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame
GEO httpwwwncbinlmnihgovgeo
GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
GFF httpgmodorgwikiGFF
GO httpwwwgeneontologyorg
HGNC httpwwwgenenamesorg
IMG httpimgjgidoegov
inmon httpenwikipediaorgwikiBill_Inmon
InterPro httpwwwebiacukinterpro
Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml
JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
jena httpjenaapacheorg
Jetty httpjettycodehausorgjetty
JWBF httpjwbfsourceforgenet
KEGG httpwwwgenomejpkegg
LION Bioscience AG httpwwwbiochipnetcomnode1561
MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings
Medline httpwwwmedlinecom
MeSH httpwwwnlmnihgovmesh
MetaCyc httpmetacycorg
MGI httpwwwinformaticsjaxorg
Microbes Online httpwwwmicrobesonlineorg
MIPS httpwwwhelmholtz-muenchendeenibis
MySQL httpwwwmysqlcom
NCBI httpwwwncbinlmnihgov
NIH httpwwwnihgov
OBO httpwwwobofoundryorg
ODMG wwwodmgorg
OMIM httpwwwomimorg
ORACLE httpwwworaclecomindexhtml
OWL httpwwww3orgTR2009WD-owl2-primer-20090611
PDB httpwwwrcsborgpdbhomehomedo
200
peer-review literature httpenwikipediaorgwikiPeer_review
perl httpdevperlorgperl5
Pfam httppfamsangeracuk
PhosphGrid httpwwwphosphogridorg
Plasmodb httpplasmodborgplasmo
ProDom httpprodomprabifrprodomcurrenthtmlhomephp
PRODORIC httpwwwprodoricde
Proteacutegeacute httpprotegestanfordedu
Pseudomonas Genome Database httpwwwpseudomonascom
Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg
PseudomonasDW httpwwwpseudomonasdwkhaosumaes
PubMed httpwwwncbinlmnihgovpubmed
Qexo httpwwwxmlcompuba20030611qexohtml
RDF httpwwww3orgTRrdf-concepts
RDFS httpwwww3orgTRrdf-schema
RefSeq httpwwwncbinlmnihgovRefSeq
RiboWeb httphelix-webstanfordeduribowebhtml
SGD database httpwwwyeastgenomeorg
SRS httpsrsebiacuk
Tomcat httptomcatapacheorg
UML httpwwwumlorg
UMLS httpwwwnlmnihgovresearchumls
UniGene httpwwwncbinlmnihgovunigene
UniProt httpwwwuniprotorg
W3C httpwwww3org
watchlist httpwwwmediawikiorgwikiManualWatchlist
WebDAV httpwwwietforgrfcrfc2518txt
Wikipedia httpwwwwikipediaorg
xBASE httpwwwxbaseacuk
XML httpwwww3schoolscomxml
XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml
XML-RPC httpxmlrpcscriptingcomspechtml
XML-RPC SOAP httpwwww3org2000xpGroup
ZFIN httpzfinorg
1
Reacute sumeacute
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Leur faciliteacute de
culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de Pseudomonas
ont fait de ce genre un foyer ideacuteal pour la recherche scientifique Lrsquoimportance biologique fournie
par les Pseudomonas dans le domaine de la recherche a donneacute naissance agrave un grand nombre
drsquoinformations Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a
conduit agrave une heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante Aujourdrsquohui lrsquoun des grands deacutefis
de la bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources de
donneacutees heacuteteacuterogegravenes via des proceacutedures automatiques Dans ce cadre notre travail a pour finaliteacute la
reacutealisation drsquoun environnement inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce
travail entre dans le cadre drsquoune collaboration scientifique entre notre laboratoire de recherche
LABIPHABE et le groupe KHAOS de lrsquouniversiteacute de Malage
Lrsquooriginaliteacute de notre travail est de combiner lrsquoapproche mateacuterialiseacutee (entrepocirct de donneacutees) et
lrsquoapproche virtuelle (meacutediateur) pour profiter de ces avantages agrave la fois Lrsquoentrepocirct va permettre
lrsquoaccegraves direct et rapide aux donneacutees alors que le meacutediateur permettra lrsquointeacutegration de diffeacuterentes
sources de donneacutees et aussi il permettra la mise agrave jour des donneacutees en cas de besoin Notre entrepocirct
de donneacutees nommeacute PseudomonasDW integravegre les donneacutees biologiques stockeacutees dans cinq bases de
donneacutees diffeacuterentes accessibles via le Web Genbank PRODORIC UniProt KEGG et
BRENDA PseudomonasDW est un entrepocirct de donneacutees semi-structureacute pour lrsquointeacutegration
seacutemantique des donneacutees du genre Pseudomonas Il a eacuteteacute conccedilu dans le but de reacutepondre aux besoins
des biologistes en matiegravere de donneacutees geacutenomiques proteacuteomiques et meacutetaboliques Lrsquointeacutegration des
donneacutees agrave partir des sources de donneacutees heacuteteacuterogegravenes repreacutesente la consolidation des donneacutees
heacuteteacuterogegravenes conduisant agrave la reproduction des nouvelles donneacutees ne peuvent pas ecirctre obtenues agrave
partir drsquoune seules source
Mot cleacutes Pseudomonas inteacutegration de donneacutees entrepocirct meacutediateur approche hybride
PseudomonasDW
2
Reacutemeacutercieacutemeacutents
3
Reacutemeacutercieacutemeacutents
Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani
pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute
et aideacute tout au long de ses anneacutees de thegravese
Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-
encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de
recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches
Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger
mon travail
Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe
khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton
preacutecieux soutien
A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute
leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont
teacutemoigneacutes
Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec
une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton
encouragement
Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes
compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave
lrsquoavancement de ce travail
Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere
Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma
grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille
Briache
Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail
4
Sommaireacute
5
Sommaireacute
Introduction geacuteneacuterale 18
1 Problematique et motivation 19
2 CADRE ET BUTS DU TRAVAIL 23
3 Les pseudomonas 24
31 Caracteres geacuteneacutereaux 24
32 Pouvoir pathogegravene 26
33 Lutte biologique 27
4 Structure de document 28
Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
1 Introduction 31
2 Eacutetat des sources 32
21 Varieacuteteacute des sources biologiques 33
22 Autonomie et capaciteacutes drsquointerrogation 35
3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37
31 Diversiteacute syntaxique 37
32 Diversiteacute seacutemantique 38
33 Diversiteacute des langages de requecircte 39
34 Diversiteacute des services 39
4 Eleacutements de standardisation 40
41 Format standards et nomenclatures 40
42 Ontologies 41
43 Meacutetadonneacutees 42
44 Langages et formalismes 43
Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46
1 Introduction 47
2 points de variation entre les approches drsquointeacutegration 49
21 Degreacute drsquointeacutegration 49
211 Approche agrave couplage serreacute 49
6
212 Approche agrave couplage lacircche 50
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50
221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50
222 Types drsquointeacutegrations seacutemantique 51
223 Approches ascendante et descendante 51
23 Mateacuterialisation des reacutesultats 52
24 Accegraves aux donneacutees 52
3 approches drsquointeacutegration en bioinformatique 52
31 Approche non mateacuterialiseacutee 53
311 Le systegraveme meacutediateur 53
312 Le systegraveme navigationnel 61
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70
321 Deacutefinition et Architecture 70
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74
324 Les modegraveles des entrepocircts de donneacutees 75
325 Adeacutequation Problegravemes rencontreacutes 81
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82
4 Discussion 86
Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de
Pseudomonas sp 90
1 Introduction 91
2 Vue Global sur le systegraveme PseudomonasDW 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94
211 Bases de donneacutees geacutenomique et proteacuteique 95
212 Bases de donneacutees meacutetaboliques 96
213 Bases de donneacutees Enzymatique 97
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101
31 Scheacutemas de source 101
32 Services de donneacutees 102
321 Architecture du service de donneacutees dans PseudmonasDW 103
7
322 Impleacutementation du service de donneacutees dans PseudmonasDW 104
33 Scheacutema Inteacutegrateur du PseudmonasDW 107
34 Correspondances seacutemantiques entre les scheacutemas 110
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113
36 SB-KOM System Biology Khaos Ontology-based Mediator 115
4 Processus ETL dans Pseudomonasdw 117
5 Discussion et conclusion 123
Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp
126
1 Introduction 127
2 MODEacuteLISATION de PseudomonasDW 129
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129
22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133
23 Diagramme de classes du systegraveme PseudomonasDW 135
3 IMPLEMENTATION DE PSEUDOMONASDW 135
31 Organisation des bases de donneacutees de PseudomonasDW 136
32 Impleacutementation des bases de donneacutees de PseudomonasDW 139
4 INTERFACE WEB DE PSEUDOMONASDW 141
41 Les Moteurs de rechercheacute dans PseudomonasDW 141
42 Les entreacutees de Pseudomonas DW 144
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147
511 GBrowse Vue geacuteneacuterale 149
512 Installation de GBrowse 149
513 Creacuteation et peuplement des bases de donneacutees MySQL 150
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153
521 Blast Vue geacuteneacuterale 153
522 La fonctionnaliteacute du Blast 154
6 PDWiki 157
61 Geacuteneacuteraliteacute sur les Wikis biologiques 158
62 PDWiki Infrastructure et contenue 159
63 Comment naviguer dans PDWiki 162
8
7 DISCUSSION 163
Conclusions et perspectives 165
1 Reacutesumeacute des contributions 168
2 Ouverture et pistes de recherche 172
Glossaire 174
Annexes 181
Bibliographie 188
Reacutefeacuterences Internet 197
9
INDEX DES FIGURES ET DES TABLES
FIGURES
Figure 1 Architecture dun systegraveme meacutediateur 54
Figure 2 Lapproche GAV (Global As View) 56
Figure 3 Lapproche LAV (Loacl As View) 56
Figure 4 Approche GLAV 57
Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62
Figure 6 Graphe de liens entre les sources 63
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65
Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67
Figure 9 Architecture de BioGuide 69
Figure 10 Architecture dun entrepocirct de donneacutees 71
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de
donneacutees 73
Figure 13 Exemple de cube de donneacutees 76
Figure 14 Modegravele en eacutetoile 78
Figure 15 modegravele en flocon 78
Figure 16 Modegravele en constellation 78
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le
systegraveme PseudmonesDW 103
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108
10
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre
conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux
relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et
les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et
lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la
formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet
sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles
de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en
haut des eacuteleacutements de lontologie en rouge 118
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc
contient des informations pour acceacuteder aux services de donneacutees 119
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat
final de leacutetape ETL au sein de systegraveme PseudomonasDW 121
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction
de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de
chargement de donneacutees au sei de PseudmonasDW 122
Figure 33 Le diagramme de cas dutilisation de lutilisateur 131
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132
Figure 35 Le diagramme de cas dutilisation de ladministrateur 133
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134
Figure 37 Le diagramme conceptuel de PseudomonasDW 137
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A
gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW
A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas
aeruginosa PAO1 139
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees
au niveau de PseudomonasDW 140
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne
la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de
seacutelectionner un champ speacutecifique de recherche 142
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections
Organism et Gene de lentreacutee PAE00524 145
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154
11
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles
lutilisateur peut choisir 155
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences
indeacutependamment des bases de donneacutees de PseudomonasDW 155
Figure50 Exemple de reacutesultat de Blast 157
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir
et annoter lentreacutee PAE00524 de PseudomonasDW 161
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de
PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162
Figure 53 Architecture deXist copy Wolfgang Meier 187
TABLES
Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54
Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117
Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130
Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131
Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140
12
ABREVIATION
13
ABREVIATION
ADN Acide Deacutesoxyribonucleacuteique
API Application Programming Interface
ASN Abstract Syntax Notation
BACIIS Biological And Chemical Information Integration System
BioGRID Biological General Repository for Interaction Datasets
BLAST Basic Local Alignment Search Tool
CGH Comparative genomic hybridization
ChEBI Chemical Entities of Biological Interest
CMR Comprehensive Microbial Resource
CPAN Reacuteseau Complet drsquoArchives Perl
CPL Collection Programming Language
CSS Cascading Style Sheets
CSUQ Computer System Usability Questionnaire
CYGD Comprehensive Yeast Genome Database
DAML DARPA Agent Markup Language
dbEST Expressed Sequences Tags databases
DDBJ DNA Data Bank of Japan
DTD Document Type Definition
EBI European Bioinformatics Institute
EcoCyc Encyclopedia of Escherichia coli
EMBL European Molecular Biology Laboratory
EMBO European Molecular Biology Laboratory
EPG Entity Path Generator
ETL Extraction transformation and loading
ExPASy (Expert Protein Analysis System
FTP File Transfer Protocol
GAM Generic Annotation Management
GAV Global As View
GDB Human Genome Databases
GEDAW Gene Expression DAta Warehouse
GenMapper Genetic Mapper
GEO Gene Expression Omnibus
GeWare Gene Expression Warehouse
14
GFF General Feature Format
GIMS Genome Information Management System
GLAV Generalized Local As View
GMOD Generic Modele Organisme Database project
GNU GNUs Not UNIX
GO Gene Ontology
GPL General Public License
GRAIL GALEN Representation and Integration Language
GUS Genomics Unified Schema
HGNC Human Gene Organisation
HGP Human Genome Project
HGP Human Genome Project
HTML HyperText Markup Language
HTTP Hypertext Transfer Protocol
IBM International Business Machines
ICARUS Interpreter of Commands And Recursive Syntax
IMG Integrated Microbial Genomes
INSDC Internatinal Nucleotide Sequence Database Collaboration
INSERM Institut National de la Santeacute et de la recherche meacutedicale
IRISA Institut de Recherche en Informatique et Systegravemes
Aleacuteatoires
JAXB Java Architecture for XML Binding
JAXP Java API for XML Processing
JDBC Java Database Connectivity
K2MDL K2 Mediator Definition Language
KEGG Kyoto Encyclopedia of Genes and Genomes
KOMF Khaos Ontology-based Mediation Framework
LAV Local As View
MCM Modegravele Conceptuel Multidimensionnel
MeSH Medical Subject Headings
MGD Mouse Genome Database
MGI Mouse Genome Informatics
MIPS Munich Information Center for Protein Sequences
MOLAP Multidimensionnal On Line Analytical Processing
NAR Nucleic Acids Research
NBRF National Biomedical Research Foundation
NCBI National Center for Biotechnology Information
15
NIH National Institutes of Health
NXD Native XML Database
OBO Open Biomedical Ontologies
ODL Object Definition Language
ODMG Object Data Management Group
OIL Ontology Inference Layer
OLAP On Line Analytical Processing
OLTP On Line Transactionnel Processing
OMG Object Management Group
OMIM Online Mendelian Inheritance in Man
OOLAP Object On-Line Analytical Processing
OQL Object Query Language
OWL Web Ontology Language
PDP Protein Data Bank
Pfam Protein Famili
PHP Hypertext Preprocessor
PIR Protein Identification Ressource
PPI Protein-Protein Interaction
PQL Program Query Language
PRODORIC PROcariotIC Database Of Gene-Regulation
QUIS Questionnaire for User Interface Satisfaction
RDF Resource Description Framework
RDFS Resource Description Framework Schema
ROLAP Relational On-Line Analytical Processing
SB-KOM System Biology Khaos Ontology-based Mediator
SEPT Source Entity Path Translator
SGBD Systegraveme de gestion de base de donneacutees
SGD Saccharomyces Genome Database
SKB Source Knowledge Base
SOAP Simple Object Access Protocol
SOFG Standards and Ontologies for Functional Genomics
SQL Structured Query Language
SRS Sequence Retrival System
SUS System Usability Scale
Tambis Transparent Access to Multiple Bioinformatic
InformationSources
TaO Tambis Ontology
16
UCL Universiteacute catholique de Louvain
UML Unified Modelling Language
UMLS Unified Medical Language System
UniProt Universal Protein Resource
URL Uniform Resource Locator
USA United States of America
W3C World Wide Web Consortium
WSDL Web Services Description Language
XML Extensible Markup Language
XSLT Extensible Stylesheet Language Transformations
ZFIN Zebrafish Information Network
17
NOTE AU LECTEUR
Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire
18
INTRODUCTION GENERALE
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute
19
Introduction geacute neacute raleacute
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au
domaineacute biologiqueacute
Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere
exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des
sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au
plus grand nombre ouvrant ainsi de belles perspectives en recherche
La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant
les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation
diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse
du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees
diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de
reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees
heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte
Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte
La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs
disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la
complexiteacute du monde vivant (Blagosklonny and Pardee 2002)
Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de
diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques
implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de
donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature
1 PROBLEMATIQUE ET MOTIVATION
Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les
laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute
20
des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de
donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel
Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats
La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas
envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la
documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de
consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter
les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers
plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML
(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les
langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery
(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont
parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur
Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui
avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun
(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes
incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige
lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees
enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par
le biais de formulaires Web ou par une connexion directe au SGBD
De nos jours la masse formidable de donneacutees produites par les centres de recherche
atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de
systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb
2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette
accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune
science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee
2005)
Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des
donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute
particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces
sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare
de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige
leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du
systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise
optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La
1 httpwwwncbinlmnihgovnuccore
2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-
mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
21
majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des
serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent
montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge
Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne
concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct
lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la
preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres
deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-
Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de
logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans
compensation financiegravere5
Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave
rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee
possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux
problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin
dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes
eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario
typique reacutesolu manuellement
Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les
voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee
laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe
le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo
Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape
consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees
Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu
dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par
exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees
KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations
fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue
qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous
auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible
nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave
geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens
hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml
4 httpwwwmysqlcom
5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes
6 httpwwwbrenda-enzymesinfo
7 httpwwwgenomejpkegg
22
paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que
GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes
dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que
tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention
humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne
pas dire inexistante
Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages
de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des
solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface
unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le
cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles
(architecture de meacutediation)
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les
donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des
hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J
and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque
base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace
physique occupeacute serait trop important tant par les donneacutees que la conservation de leur
traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de
fonctionnement du systegraveme
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
23
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans
certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de
transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees
2 CADRE ET BUTS DU TRAVAIL
Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il
srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions
moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux
drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur
apparition croissante dans la litteacuterature scientifique
Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette
masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles
connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet
comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le
Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis
quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer
lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte
drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double
Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces
donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une
proteacuteine donneacutee
Fournir une plateforme complegravete permettant drsquoorienter la recherche par
extraction de nouvelles connaissances
La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en
combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la
mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine
biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre
24
groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de
Malaga
La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees
biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets
drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-
organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees
PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les
enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki
scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la
communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations
relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans
PseudomonasDW
3 LES PSEUDOMONAS
31 Caracteres geacuteneacutereaux
Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al
2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes
Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec
comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le
nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles
sont oxygegravene (+)
Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes
comme source de carbone et drsquoeacutenergie
Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux
antibiotiques et aux antiseptiques
A) Morphologie et structure
Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La
mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour
les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en
deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture
25
B) Croissance et nutrition
De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la
tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes
La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont
capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de
carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les
auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats
carboneacutes utilisables comme source drsquoeacutenergie pour la croissance
C) Caractegraveres physiologiques
Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de
conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de
culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle
tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip
D) Habita
Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol
humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et
se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels
surtout srsquoils sont humides
E) Morphologie et caractegraveres culturaux
Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune
pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de
cette bacteacuterie
Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC
ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la
production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et
non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski
convient pour la culture
F) Aspects de colonies
Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut
ecirctre observeacutee
Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un
contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect
meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave
lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes
Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord
circulaire reacutegulier
26
Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces
colonies se rencontrent presque speacutecifiquement dans des infections chroniques
urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un
polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo
G) Production de pigments
Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification
Ils sont fluorescents ou non fluorescents
Pyoverdine
Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en
eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est
inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer
Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes
fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas
aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de
nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un
moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer
et de le transporte
Pyocyanine
Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la
seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves
drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en
milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la
chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na
Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches
sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des
malades traiteacutes aux antibiotiques
Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent
de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le
diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P
lemonieri P stutzeri et P mendocina
32 Pouvoir pathogegravene
Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme
pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et
27
cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle
peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle
comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par
lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave
certains antibiotiques courants
Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble
laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique
de mauvaises conditions de plantation une autre maladie des blessures un systegraveme
racinaire contraint ou asphyxieacute
Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme
agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de
Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux
eacutetudieacutee
33 Lutte biologique
De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de
biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la
biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par
des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol
ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches
mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour
deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les
performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres
bacteacuteries
Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute
microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les
genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement
sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui
colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent
particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique
Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de
population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient
sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres
rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des
exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave
isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-
A-Woeng et al 2001)
28
Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues
depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans
certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents
phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs
meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de
sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition
du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela
peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la
maladie
4 STRUCTURE DE DOCUMENT
Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les
diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une
description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources
Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions
majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et
montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de
la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques
des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)
qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de
donneacutees originales jusqursquoagrave PseudomonasDW
Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les
espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les
phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet
aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous
deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans
PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur
drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW
Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs
29
Preacutemieacute reacute Partieacute
30
CHAPITRE 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
31
Chapitre 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
Sommaire
1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31
2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32
21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33
22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35
3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38
33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41
43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42
44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43
1 INTRODUCTION
Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif
est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de
solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees
Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80
sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier
1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute
une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise
en place de systegravemes de stockage des donneacutees
32
En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de
seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute
ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos
(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees
relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration
entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest
eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour
proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui
accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques
Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere
sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource
(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve
degraves 1986
2 EacuteTAT DES SOURCES
Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web
eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases
Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus
importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and
Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de
1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu
le jour
On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les
dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de
ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre
source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le
Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)
quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne
leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont
vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces
agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute
stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute
8 httpwwwemboorg
9 httpwwwnihgov
10 httpwwwncbinlmnihgov
11 httpwwwddbjnigacjp
12 httpwwwncbinlmnihgovgeo
13 httpwwwebiacukarrayexpress
33
creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le
deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement
analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)
drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les
reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de
donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements
multiples
La sous-section suivante dresse un rapide panorama drsquoun certain nombre de
sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web
21 Varieacuteteacute des sources biologiques
Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La
classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave
lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees
qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)
classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes
(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de
donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des
travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources
suivantes
Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du
domaine meacutedical Medline16 PubMed17
Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en
existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les
seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank
(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui
contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits
les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de
donneacutees sont ArrayExpress (Europe) et GEO (USA)
Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees
disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement
chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par
14
httpblastncbinlmnihgovBlastcgi 15
httppfamsangeracuk 16
httpwwwmedlinecom 17
httpwwwncbinlmnihgovpubmed
34
un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou
GEOArrayExpress) dans un certain format Toute publication scientifique
soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de
puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification
GenBankEMBLDDBJ (respectivement GEOArrayExpress)
Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne
sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des
seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la
soumission
Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces
sources contiennent des informations nettoyeacutees (au moins automatiquement
comme la suppression de doublons) et parfois mecircme valideacutees manuellement par
des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires
est de partir de donneacutees issues des sources primaires pour proposer des
informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations
compleacutementaires
Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont
deux exemples de sources secondaires qui proposent de regrouper les fiches
GenBank La premiegravere propose une version non redondante de GenBank elle est
obtenue en utilisant des techniques de regroupement semi-automatiques alors que
la seconde construit de faccedilon automatique des clusters de seacutequences
Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement
du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun
ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un
ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans
lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les
reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de
publications et associeacutes agrave un pheacutenotype (une maladie) donneacute
Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources
au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage
(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes
automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils
bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources
18
httpwwwncbinlmnihgovRefSeq 19
httpwwwncbinlmnihgovunigene 20
httpwwwncbinlmnihgov 21
httpwwwomimorg 22
httpprodomprabifrprodomcurrenthtmlhomephp
35
sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des
reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees
Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees
sur une famille de fonctions biologiques Par exemple la source BRENDA
est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique
sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources
FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database
SGD24 (deacutedieacutee agrave la levure)
Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de
fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes
dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve
dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de
synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes
humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt
(Consortium 2010) GenBank)
22 Autonomie et capaciteacutes drsquointerrogation
La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement
autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait
libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent
souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en
faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles
reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source
pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude
du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit
prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution
afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci
lors de lrsquoexeacutecution des requecirctes
Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web
est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet
eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de
cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les
accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client
23
httpflybaseorg 24
httpwwwyeastgenomeorg 25
httpwwwgenecardsorg
36
FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par
exemple) ou plus reacutecemment encore via des appels de services Web Concernant les
interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui
suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces
qursquoil devra utiliser
Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent
tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas
lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont
disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent
soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il
nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la
puissance de calcul drsquoune source par une requecircte trop complexe
soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive
drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source
Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme
drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et
via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs
sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus
expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL
Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais
aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)
ou Fasta26 (Lipman and Pearson 1985)
Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs
repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation
ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les
proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre
automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de
faciliteacute en fonction de lrsquoapproche suivie
26
httpwwwebiacukToolssssfasta
37
3 DIFFICULTES RENCONTREES LORS DE
LrsquoINTERROGATION DES SOURCES
Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web
nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de
donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout
une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements
effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au
cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble
de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi
que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux
des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements
En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele
de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a
deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati
2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses
approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La
taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation
mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des
probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al
2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques
qui rendent leur interrogation complexe et fastidieuse
31 Diversiteacute syntaxique
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les
formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees
soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson
1985) soit du XML du HTML ou des SGBD relationnels ou objets
Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase
drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le
deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du
langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin
2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et
al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave
reacutesoudre
27
httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
38
32 Diversiteacute seacutemantique
Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui
sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus
Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une
entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine
qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene
codant pour chaque proteacuteine est alors vu comme un simple attribut Au
contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et
crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le
domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine
(dans PDB29)
Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee
nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par
exemple UniProt propose des informations sur des proteacuteines issues de
diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles
ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire
chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune
des proteacuteines de la levure
Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une
mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par
exemple selon les sources une proteacuteine est une isoforme particuliegravere
(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes
(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui
peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou
incluant les introns
La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais
qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des
modegraveles des formats et des scheacutemas diffeacuterents
Diversiteacute des informations au niveau des instances
Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son
expertise agrave travers une fiche Il peut arriver que selon les sources une
mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes
Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance
associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est
peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe
drsquoannotateurs Certains annotateurs emploieront le terme de putative 28
httpwwwebiacukinterpro 29
httpwwwrcsborgpdbhomehomedo
39
pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront
le terme hypothetical Drsquoautres encore ne preacuteciseront rien
Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent
plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme
proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les
sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait
plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes
diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas
en preacutesence drsquohomonymie
Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi
ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de
vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie
les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable
puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de
la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees
33 Diversiteacute des langages de requecircte
Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le
langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)
est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases
de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la
source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin
et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes
OQL sur leur scheacutema
34 Diversiteacute des services
Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees
(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave
une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers
ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre
lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par
exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des
heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de
30
httpwwwensemblorgindexhtml
40
donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences
nucleacuteotidiques comme BlastN)
4 ELEMENTS DE STANDARDISATION
Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute
proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms
des concepts sous-jacents aux donneacutees des sources et des noms des relations entre
ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre
experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le
second type de solution est plus geacuteneacuterique il comprend la construction de cadres de
repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que
lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de
concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de
solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees
contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees
41 Format standards et nomenclatures
Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de
terminologies standards pour deacutecrire les donneacutees
Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir
des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies
pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un
workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu
annuellement et regroupe les principaux acteurs sur cette probleacutematique
Le souci de standardisation de lrsquoattribution de noms est pris en compte par le
consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature
Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences
31
httpwwwgenenamesorg
41
42 Ontologies
Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de
faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la
construction de nombreuses ontologies
Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la
philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions
informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune
conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus
souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie
cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a
donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces
concepts
Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine
biologique
Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui
vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques
speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un
organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement
consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants
cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la
communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres
ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie
MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)
Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open
Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en
ligne dont voici un extrait
Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces
particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du
Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish
Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on
distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour
32
httpwwwgeneontologyorg 33
httpwwwobofoundryorg 34
httpwwwinformaticsjaxorg 35
httpzfinorg 36
httpwwwnlmnihgovresearchumls
42
les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject
Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine
Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al
2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39
(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un
dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave
lrsquoEBI41
Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et
al 1997) propose un format de donneacutees une nomenclature et un cadre XML
(RNA-ML) (Waugh et al 2002)
Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)
nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN
et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies
se preacutesentent sous la forme de graphes non cycliques
43 Meacutetadonneacutees
Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil
srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave
une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee
permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation
et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples
de meacutetadonneacutees
lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification
des commentaires exprimant un point de vue sur la ressource
le scheacutema des donneacutees les index associeacutes
des informations de qualiteacute relatives au scheacutema de la ressource
des informations statistiques sur les donneacutees
la speacutecification la signature drsquoun programme
37
httpwwwnlmnihgovmesh 38
httpecocycorg 39
httpmetacycorg 40
httpwwwebiacukchebi 41
httpwwwebiacuk 42
httphelix-webstanfordeduribowebhtml
43
Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute
proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la
description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere
geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la
description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements
(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en
cateacutegories
Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description
(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant
le contenu de la ressource titre sujet ou codes de classement description
source langue relation avec une autre ressource couverture spatiale et temporelle
la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation
la mateacuterialisation de la ressource cycle de vie type format identificateur
44 Langages et formalismes
Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont
deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont
XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du
W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de
donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre
explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou
des applications
Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun
document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en
particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la
grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux
formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document
Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee
en XML
Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les
eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt
43
httpdublincoreorg 44
httpwwww3org
44
De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois
des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique
drsquoeacuteleacutements agrave une structure en graphe
Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un
document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire
deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide
XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il
assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML
crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension
seacutemantique
RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C
pour la description des sources sur le Web Les descriptions se font en exprimant des
proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave
deacutefinir les termes et les relations qui interviennent dans ces descriptions
RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des
meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces
meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes
de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le
Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme
drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en
acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre
une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut
ecirctre reacutealiseacutee et faciliteacutee
Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces
concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des
ontologies
OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute
par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les
applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave
preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML
RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle
OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la
disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus
riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees
45
httpwwww3orgTRrdf-concepts 46
httpwwww3orgTRrdf-schema 47
httpwwww3orgTR2009WD-owl2-primer-20090611
45
OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL
OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une
hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou
taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des
constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux
tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes
de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de
restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes
mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique
de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider
au raisonnement sur une base de connaissances OWL Full permet un maximum
drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe
proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du
vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL
pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de
connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description
46
CHAPITRE 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
47
Chapitre 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47
2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50
23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53
32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70
4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86
1 INTRODUCTION
Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les
questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions
au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes
drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave
plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces
systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and
Kambhampati 2004)
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute
proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur
48
Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des
autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire
communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque
permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire
n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les
systegravemes (Sheth and Larson 1990)
Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune
base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les
applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement
directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)
Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration
drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes
sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont
accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des
sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de
requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources
disponibles
Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves
reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees
biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures
comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees
mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans
le mecircme temps
Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre
les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de
lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les
donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches
sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la
lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes
Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave
ecirctre exhaustifs
49
2 POINTS DE VARIATION ENTRE LES APPROCHES
DrsquoINTEGRATION
On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le
degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la
mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et
al 2004)
Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit
lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en
un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme
est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a
eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un
systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types
drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La
mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les
vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes
envoyeacutees au systegraveme
21 Degreacute drsquointeacutegration
Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement
appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere
approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema
inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche
agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources
de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une
transparence drsquointerface
211 Approche agrave couplage serreacute
Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de
lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul
emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema
peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit
conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des
requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme
drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas
50
des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des
deacutefinitions de regravegles (voir la sous-section 3213)
Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre
tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema
inteacutegrateur
212 Approche agrave couplage lacircche
Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du
systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter
lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les
utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre
accessibles pour des requecirctes
Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour
les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de
sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas
sont toujours visibles
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration
Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees
provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees
Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle
lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web
seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune
telle infrastructure
221 Modegravele de donneacutees du systegraveme drsquointeacutegration
Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le
modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un
scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les
donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas
drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour
acceacuteder aux sources de donneacutees
51
222 Types drsquointeacutegrations seacutemantique
Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas
drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres
systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants
Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun
point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique
comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les
communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration
verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati
2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la
communauteacute informatique)
Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une
correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme
drsquointeacutegration
Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la
preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux
drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche
drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier
des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique
ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire
le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees
seacutemantique
223 Approches ascendante et descendante
Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre
seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche
lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball
2002)
Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des
besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele
de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans
lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces
meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins
des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les
sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir
desquelles les donneacutees deacutecisionnelles sont extraites
52
Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les
donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle
construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-
automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour
deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode
considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la
source (List et al 2002)
23 Mateacuterialisation des reacutesultats
Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle
deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de
lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre
deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche
virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global
extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes
adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees
Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette
approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce
stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les
donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un
entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de
donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes
sources de donneacutees doit passer par des proceacutedures de mises agrave jour
24 Accegraves aux donneacutees
Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes
pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la
navigation speacutecialement dans les systegravemes baseacutees sur le Web
3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE
Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute
dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une
53
approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees
Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres
suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes
sources et combineacutees dans un scheacutema global
31 Approche non mateacuterialiseacutee
Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels
sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques
de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme
ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour
drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web
proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50
(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble
eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et
permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute
de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases
comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs
reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble
drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome
humain
Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types
drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees
biologiques le systegraveme meacutediateur et le systegraveme navigationnel
311 Le systegraveme meacutediateur
Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un
systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent
stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture
meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous
indiquerons dans cette section comment certaines approches meacutediateur sont directement
issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est
celle qui est la plus reacutepondue en informatique
48
httpwwwncbinlmnihgovsitesgquery 49
httpexpasyorg 50
httpsrsebiacuk
54
A) Deacutefinition et Architecture
Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose
une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes
pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et
homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes
Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est
central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un
vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit
une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche
lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de
faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de
lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont
calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver
une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique
logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte
poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions
des vues
Figure 1 Architecture dun systegraveme meacutediateur
55
Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme
drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans
leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui
lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon
distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via
des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en
terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source
B) Approches GAV LAV et GLAV
Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par
la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des
sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales
drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave
inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes
(GLAV) (Baader et al 2003)
Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour
lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave
inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont
deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette
approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance
Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du
scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de
donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit
que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee
par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois
deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources
de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se
ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement
effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de
nouvelles sources de donneacutees
La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est
geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources
ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels
que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le
scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par
51
Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes
56
exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute
ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global
Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications
consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T
a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)
Figure 2 Lapproche GAV (Global As View)
Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les
scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et
inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche
LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de
donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre
ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du
scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute
et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une
requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en
termes de vues est en effet bien plus complexe que dans une approche GAV Nous
renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle
Figure 3 Lapproche LAV (Loacl As View)
57
Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche
GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee
en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche
GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une
nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans
lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue
sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut
deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif
que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du
pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la
conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison
entre les trois approches
Figure 4 Approche GLAV
Table1 Comparaison des approches GAV LAV et GLAV
Approche Reacuteeacutecriture de requecircte mise-agrave-jour source
GAV facile difficile LAV difficile facile
GLAV difficile facile
C) Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix
des sources ce qui est autant plus important qursquoil a un grand nombre de sources
disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple
surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du
scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque
58
les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui
eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable
(2) Problegraveme rencontreacutes
Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les
donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune
source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes
Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les
reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au
niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement
supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se
fait directement au niveau des donneacutees centraliseacutees
Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur
sont
Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des
langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave
inteacutegrer et les requecirctes des utilisateurs
En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de
reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave
exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale
Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans
de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre
potentiellement redondantes Pour faire correspondre les instances entre elles il
faut suivre les techniques de lrsquoalignement (mappings en anglais)
D) Panorama des meacutediateurs existants en Bioinformatique
(1) K2Kleisli
Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute
deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave
avoir vu le jour en bioinformatique
Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus
expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection
Programming Language) (Hart et al 1994) En effet le langage CPL permet de
deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources
concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources
59
qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de
KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et
EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences
nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et
al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome
Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de
seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par
SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema
orienteacute objet
Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un
langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect
inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non
seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes
objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du
langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur
de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les
sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL
(2) TAMBIS
Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un
systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester
(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO
(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave
travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au
niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le
systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee
pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les
rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une
requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave
la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de
K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux
sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au
format HTML
TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec
OWL qui sont des langages plus expressifs
52
httpwwwncbinlmnihgovdbEST 53
httpgdbwwwgdborg
60
Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa
besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier
avec un langage de requecircte particulier
(3) DiscoveryLink
DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de
DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une
architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire
drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)
utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute
syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont
soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute
lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les
adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator
(Arenson 2003) mais fonctionne toujours selon le mecircme principe
(4) BACIIS
Le projet BACIIS (Biological And Chemical Information Integration System) est un
systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS
BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique
de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le
langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois
dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes
organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees
(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que
rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)
La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de
donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de
donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet
drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme
drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux
inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la
correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme
permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration
54
httpwwwalmadenibmcomcsgarlic
61
312 Le systegraveme navigationnel
Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche
drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris
Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet
de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave
construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques
sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes
sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont
transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle
permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les
sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte
peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations
A) Deacutefinition
Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes
mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec
des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires
telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins
et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)
Notons que compareacute au nombre important de sources de donneacutees actuellement
disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin
dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research
(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les
sources les plus importantes partagent des identifiants mais nombreuses sont celles plus
petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que
partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences
souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les
interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle
atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur
augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive
(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee
par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet
Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger
rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne
neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est
fait encore aujourdrsquohui manuellement
B) Exploitation des reacutefeacuterences croiseacutees
Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un
premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple
62
Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des
informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)
Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune
mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave
des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes
sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas
neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-
reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour
La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur
lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous
consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le
montre lrsquoexemple de la Figure 5
Figure 5 Exemple de partage de reacutefeacuterences entre les sources
Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans
lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero
drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en
gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)
Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les
mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la
reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct
55
httpwwwncbinlmnihgovomim 56
httpamigogeneontologyorgcgi-binamigogocgi
63
La Figure 6 illustre le graphe de liens existants entre les quatre sources pour
reacutepondre agrave la requecircte
Figure 6 Graphe de liens entre les sources
En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent
Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3
Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle
possegravede afin drsquointerroger Source1 et Source2
La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune
boucle apparaicirct dans le parcours des sources
Table 2 Les deux deacuteroulements possibles
Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date
Sceacutenario 1 Sceacutenario 2
Requecircte avec une date sur S1
Requecircte sur S2
Agrave partir de id2 tireacute de S1
Requecircte sur S3
Requecircte avec une date sur S3
Requecircte sur S1 et S2
A partir de id1 et id2 tireacutes de S3
64
Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs
chemins possible pour obtenir les donneacutees souhaiteacutees
Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur
simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure
apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de
la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire
La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle
nrsquoapporte aucune information suppleacutementaire
Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer
les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-
section suivante
C) Panorama des systegravemes navigationnels existants en Bioinformatique
Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de
plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour
le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins
traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont
eacutevalueacutes ces diffeacuterents chemins
(1) Le systegraveme SRS
SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par
lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and
Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par
LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques
de donneacutees (Zdobnov et al 2002)
SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme
drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de
description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And
Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est
drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les
donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index
sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche
drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un
entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees
Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en
mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et
57
httpwwwbiochipnetcomnode1561
65
donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et
beaucoup de banques speacutecialiseacutees
ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences
permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de
relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences
La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web
SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot
cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent
ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la
recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-
reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations
compleacutementaires contenues dans drsquoautres sources
Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques
pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des
sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une
mecircme requecircte
(2) Le systegraveme BioMediator
Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave
lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de
transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses
reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger
Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et
lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur
Le systegraveme BioMediator suit une conception modulaire composeacute de six composant
(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees
biologiques structureacutes et semi-structureacutees
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de
66
Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds
repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de
meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre
une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes
dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe
PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin
PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte
et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes
dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)
(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI
Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema
meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de
scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation
seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees
(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte
XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)
(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des
regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les
requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs
chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins
Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork
et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui
correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une
confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite
Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur
plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des
chemins possibles plutocirct qursquoune liste reacuteduite
(3) Le systegraveme BioNavigation
BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle
Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)
Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation
drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne
pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont
lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau
physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique
58
httpprotegestanfordedu 59
httpwwwxmlcompuba20030611qexohtml
67
ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces
entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)
Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes
entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la
construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les
citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute
lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo
BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une
requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur
des moyens pour eacutevaluer et optimiser les choix de chemins
Figure 8 Exemple de graphe dentiteacutes (Niveau logique)
Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction
du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps
drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and
Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour
reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs
paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans
BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et
sont classeacutes selon trois paramegravetres
68
La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un
chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)
ougrave e1 est une entreacutee de S1 et e2 de S2
La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale
Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution
locale et les deacutelais drsquoaccession aux sources
Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le
satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la
probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le
nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du
chemin le plus efficace en temps
(4) Le systegraveme BioGuide
Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche
navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des
utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet
BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils
bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus
drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine
biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils
et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces
graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y
seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type
de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et
des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous
la forme de chemins entre les sources Ces chemins sont construits en respectant les
preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix
Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la
preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins
geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute
drsquoutilisation
Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat
drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les
diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de
strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes
au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la
requecircte et iii) visitent une source donneacutee une seule fois
69
Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de
lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte
et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)
(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans
le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La
requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se
compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur
le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave
partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des
chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees
Figure 9 Architecture de BioGuide
Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler
ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de
strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou
les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide
ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand
nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees
divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)
70
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)
Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees
reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema
global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis
exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse
est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les
donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique
transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle
Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations
individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et
surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave
lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il
est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce
qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees
global
321 Deacutefinition et Architecture
A) Deacutefinition
Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit
lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non
volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest
pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se
caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)
Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes
Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet
et neacutecessaires aux besoins drsquoanalyse dans une structure unique
Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees
en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour
reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le
reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources
Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la
reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont
non volatile elles ne disparaissent pas apregraves les mises agrave jours
60
httpenwikipediaorgwikiBill_Inmon
71
Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont
permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct
consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent
Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les
valeurs particuliegraveres dans le temps
Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils
drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter
facilement les donneacutees
B) Architecture
Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en
deacutetaillant les diffeacuterentes couches qui le constituent
Figure 10 Architecture dun entrepocirct de donneacutees
Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et
heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data
Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes
depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line
Analytical Processing) (voir la sous-section 322)
Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)
syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend
les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la
hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees
fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-
72
Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui
repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations
concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur
structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct
Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes
vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)
lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux
structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees
inteacutegreacutees dans le systegraveme cible
Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et
une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant
logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape
drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans
un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de
donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme
logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees
neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par
source ou un middleware pour toutes les sources
73
Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees
Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave
effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct
de donneacutees Ce processus de transformation requiert la mise en correspondance
structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de
lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-
scheacutemas ou appariement de scheacutemas (schema matching)
Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent
du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est
interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de
scheacutema et de correspondance inter-scheacutemas
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute
S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et
G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents
types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un
eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison
drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs
(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles
(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel
74
Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes
qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les
critegraveres de classification suivants (Rahm and Bernstein 2001)
Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir
des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au
niveau du scheacutema
Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des
eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-
structures complexes de scheacutemas
Langage versus contrainte Les correspondances peuvent se baser sur des
approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute
de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)
Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la
relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre
scheacutema ceci menant agrave quatre cas 11 1n n1 nm
Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne
reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires
telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees
Il faut noter que certains algorithmes effectuent les correspondances en se basant
sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel
Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W
Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement
transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la
deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement
dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs
caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des
systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car
les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)
Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP
pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes
sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des
modifications freacutequentes et des volumes de donneacutees par transaction relativement faible
Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour
preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une
75
reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de
modification
Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont
qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est
reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes
sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser
une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de
grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus
complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas
correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux
de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est
entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil
contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de
chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de
lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une
alimentation reacutefleacutechie et planifieacutee dans le temps
324 Les modegraveles des entrepocircts de donneacutees
La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees
transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de
donneacutees repose sur un modegravele multidimensionnel de donneacutees
A) La modeacutelisation conceptuelle
La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association
(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)
en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de
nouvelles entiteacutes
De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave
comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation
E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute
(1) Concept de fait de dimension et de hieacuterarchie
Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse
des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que
lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur
fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction
tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees
76
en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62
Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors
qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble
drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs
Figure 13 Exemple de cube de donneacutees
Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les
attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une
dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes
relations drsquoordre entre ses attributs
Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois
dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps
Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la
proteacuteine
(2) Modegraveles en eacutetoile en flocon et en constellation
A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees
simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure
est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente
visuellement une eacutetoile on parle de modegravele en eacutetoile
61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres
correspondant aux formations faisant varier les mesures de lactiviteacute 62
Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63
Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail
77
Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce
scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions
autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute
eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions
Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la
modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la
modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de
dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et
al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions
Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au
sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la
normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball
2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des
dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend
plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema
augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte
Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en
trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en
quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo
Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui
utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs
faits et des dimensions communes (Benitez-Guerrero et al 2001)
B) La modeacutelisation logique
Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation
multidimensionnelle Il est possible dutiliser
un systegraveme de gestion de bases de donneacutees existant tels que les SGBD
relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)
un systegraveme de gestion de bases de donneacutees multidimensionnelles
(MOLAP)
Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de
bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line
Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere
suivante
Chaque fait correspond agrave une table appeleacute table de fait
Chaque dimension correspond agrave une table appeleacutee table de dimension
78
Figure 14 Modegravele en eacutetoile
Figure 15 modegravele en flocon
Figure 16 Modegravele en constellation
79
Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes
et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension
contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la
table de fait
Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de
lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel
se traduit ainsi
Chaque fait correspond agrave une classe appeleacutee classe de fait
Chaque dimension correspond agrave une classe appeleacutee classe de dimension
Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on
utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par
(Object Data Management Group) lrsquoODMG64
Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme
multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD
multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce
tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant
aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-
calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les
systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer
Les systegravemes MOLAP apparaissent comme une solution acceptable pour le
stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne
deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont
consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression
doivent ecirctre utiliseacutees
Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de
redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les
utiliseacutees sont
Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun
des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un
ensemble de faces diffeacuterents
Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune
dimension
Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune
repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble
64
wwwodmgorg
80
de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de
dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune
opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas
connu agrave lrsquoavance
C) La modeacutelisation de donneacutees XML multidimensionnelles
Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards
tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant
disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent
chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage
drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un
environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees
XML est de les convertir en donneacutees relationnelles Cependant mettre en place un
entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche
inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes
dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery
Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and
Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction
pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML
Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque
document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme
respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la
validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier
repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile
ou en flocons de neige
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing
81
La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave
lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel
multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute
en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette
approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur
leurs contenus
Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document
XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun
ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et
hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au
modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML
325 Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis
les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest
reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les
donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et
non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en
œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de
lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique
(Davidson et al 2001 Hernandez and Kambhampati 2004)
La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut
stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees
provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la
gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo
La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des
donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par
thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en
consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs
sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un
thegraveme
La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au
sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes
sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement
82
La transformation de donneacutees lors de lrsquointeacutegration Le processus de
transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de
reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration
verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce
processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de
reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema
La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles
localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees
provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte
(2) Problegravemes rencontreacutes
Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction
de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des
sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction
des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette
tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection
drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment
de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct
Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages
des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees
des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)
Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport
aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et
comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes
increacutementaux
Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car
les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations
ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches
drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique
A) GUS
Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand
entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS
est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les
maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux
proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support
pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et
83
lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour
stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative
2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al
2007)
Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts
(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et
annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de
nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et
dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il
possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat
drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des
donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS
chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de
regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale
B) GEDAW
Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees
deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des
eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de
Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse
des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees
dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves
disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de
GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches
biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees
inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie
GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees
structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology
UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de
correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme
instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent
ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences
renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)
ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est
incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut
lui aussi eacutemettre des regravegles de nettoyage des donneacutees
65
httpplasmodborgplasmo 66
httpwwwcbilupenneduepcondb42 67
httpwwwncbinlmnihgovprojectsSNP
84
Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les
scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-
mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de
deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de
transformer les structures des sources vers une forme canonique (le scheacutema global) Dans
le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour
identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres
pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des
informations
C) BioWarehouse
BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de
construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de
bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de
BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot
Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le
chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de
lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de
BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source
correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le
chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la
seacutemantique et du scheacutema global
Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un
fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des
donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations
drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas
freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation
drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir
de diffeacuterents modules
Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema
relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou
commerciales comme ORACLE
68
httpbiocycorg 69
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
85
D) GenMapper
GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques
biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene
UniProt GO InterPro KEGG et OMIM
Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema
global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic
Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les
donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales
que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source
comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le
systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le
reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu
dans le scheacutema GAM
GenMapper propose une interface conviviale de conception de requecircte ougrave
lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il
choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur
GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de
deacutepart
GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes
drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche
drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes
E) GEWARE
GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees
qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations
sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types
drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la
creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP
Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits
correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations
et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees
en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-
down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations
GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les
analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper
70
httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71
httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
86
est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees
sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare
4 DISCUSSION
Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la
recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes
drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee
Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les
donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les
rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle
au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix
en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter
Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32
fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans
un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les
donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs
propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees
inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche
permettant de lutter efficacement contre les donneacutees inconsistantes provenant de
diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands
volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la
conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes
drsquoanalyses ulteacuterieures
Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des
approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches
conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct
deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside
dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour
Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de
lrsquoaccessibiliteacute de ces sources externes
La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration
horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires
et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes
sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de
compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes
ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne
87
peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et
qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des
principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de
maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune
source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un
certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent
de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes
De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le
modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les
avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees
biologiques et avons dresseacute un panorama des solutions existantes en informatique en
montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques
88
Deacuteuxieacute meacute Partieacute
89
90
CHAPITRE 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp
91
Chapitre 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes
donneacute eacutes deacute Pseacuteudomonas sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91
2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101
31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101
32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102
33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107
34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113
36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117
5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123
1 INTRODUCTION
Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties
sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si
depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour
ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte
92
lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre
drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et
techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en
informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un
entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-
structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques
meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit
drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus
biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes
conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la
litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les
avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees
(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave
certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent
motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de
recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des
donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce
domaine font souvent appel agrave des traitements trop complexes pour tourner sur des
donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester
sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique
est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres
et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui
est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le
meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un
systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour
exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une
bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees
peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur
La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la
deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des
donneacutees
La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout
nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de
PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs
formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs
du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre
exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees
publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une
eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees
93
geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees
cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence
pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les
sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les
donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave
identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees
La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est
drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de
donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes
reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global
de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees
provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour
Respecter la fiabiliteacute de lrsquoinformation
Respecter la coheacuterence des informations une mecircme donneacutees pouvant
provenir de deux sources diffeacuterentes il faut alors choisir la plus
judicieuse
Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de
maniegravere unique une donneacutee
Unifier la repreacutesentation des donneacutees
Veacuterifier la non-redondance des informations
Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer
les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral
lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)
lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des
sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et
seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin
drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et
autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des
donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement
logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de
transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de
donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration
ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-
based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute
effectueacutee automatiquement en se basant sur quelques API (Application Programming
Interface) de java
94
2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW
Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est
un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de
lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees
inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies
Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema
inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et
meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui
nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)
Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un
environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de
construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation
souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave
lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans
les approches top-down les scheacutemas des sources importent peu pour la conception du
scheacutema global Ils seront seulement pris en compte dans un second temps quand les
correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour
permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema
global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne
connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir
PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-
up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema
telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus
drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les
donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en
assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La
combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples
permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus
cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements
cellulaire
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW
Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees
comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases
de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et
de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les
95
diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees
meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du
niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations
complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque
source de donneacutees sa provenance son contenu et sa structure
211 Bases de donneacutees geacutenomique et proteacuteique
PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du
gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une
collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de
donneacutees
GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee
comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont
publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al
2011) Cette base de donneacutees est produite au sein de NCBI (National Center for
Biotechnology Information) comme une partie de la collaboration internationale
des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal
Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs
reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de
380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre
des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines
avec la taxonomie le geacutenome le mappage la structure et les domaines
drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed
GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format
XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour
speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des
gegravenes et des seacutequences soumises
Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de
donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus
(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines
leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les
donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est
met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut
suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant
189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les
donneacutees en format HTML XML et Fasta
72
httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml
96
PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation
Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des
informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur
les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC
contient principalement des informations deacutetailleacutees sur les structures des opeacuterons
et des promoteurs y compris une eacutenorme collection des sites de liaisons et de
facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison
reacutegulateurs est disponible et une matrice du poids de position (position weight
matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la
litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave
plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du
serveur du PRODORIC par la technologie SOAP via le protocole HTTP en
utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit
eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux
utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs
propres programmes
212 Bases de donneacutees meacutetaboliques
KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme
humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est
consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique
(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux
moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les
informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de
donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions
(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus
respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers
chimique
Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies
(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus
cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du
SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui
facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique
Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure
drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes
(Kanehisa et al)
74
httpwwwprodoricde
97
213 Bases de donneacutees Enzymatique
PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees
enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la
collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles
agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme
une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et
deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique
de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites
directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en
biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des
programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est
veacuterifieacutee manuellement par au moins un biologiste et un chimiste
Le contenu de BRENDA couvre des informations sur la fonction la structure
loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des
donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et
lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que
laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des
caracteacuteristiques de la structure
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de
PseudmonasDW
Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont
plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la
litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction
drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative
Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-
hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave
aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on
parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)
que drsquoentrepocirct de donneacutees (ou data warehouse)
Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des
donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema
inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine
le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct
98
Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa
complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser
notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour
une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les
instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees
drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM
(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est
baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware
nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de
cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans
le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques
qui sont accessible via le web (Briache et al 2012)
Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de
donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment
impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de
lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de
lrsquoarchitecture du systegraveme
La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves
aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)
Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al
2003)
Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un
flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest
acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit
drsquoune technologie informatique intergicielle (comprendre middleware) permettant
drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une
autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees
dans les applications des transformateurs qui manipulent les donneacutees et des mises en
correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est
lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW
Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont
uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos
Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre
des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees
dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW
est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque
source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers
99
occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un
adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte
approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements
suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de
donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les
fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave
partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP
Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de
performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de
lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees
au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les
combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux
obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au
format HTML
Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par
lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation
qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees
Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des
services web Finalement le systegraveme transforme les donneacutees extraites en un format
commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser
une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le
scheacutema global par des regravegles de correspondances deacutefinies (mappings)
Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle
en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons
aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un
entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du
systegraveme est citeacute dans la section suivante
75
httpjenaapacheorg 76
httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77
httpexistsourceforgenet
100
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW
101
3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE
LrsquoENTREPOT DE DONNEES PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans
cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de
plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)
le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees
drsquoorigine
En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon
deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les
donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par
SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme
un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration
seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du
PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source
et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement
agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une
description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW
31 Scheacutemas de source
La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW
constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude
deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour
deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons
creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont
consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les
sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes
102
de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale
sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA
32 Services de donneacutees
Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees
et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration
(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees
accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute
comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons
deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons
deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du
Web
Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs
en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent
ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation
de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au
protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des
103
applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un
modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et
srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un
service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de
meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les
services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes
et reacuteutilisables raquo
Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la
fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture
adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service
Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le
protocole Web raquo
321 Architecture du service de donneacutees dans PseudmonasDW
Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)
Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de
diffeacuterentes sources de donneacutees
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW
Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux
sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document
104
XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa
seacutemantique comme un service web La seacutemantique du service Web inclut des informations
sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans
le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de
donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de
service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application
Programming Interface)
LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois
meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document
XML La structure du ce document doit satisfait les contraintes du scheacutema de la source
Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux
meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema
XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur
la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)
Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux
diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant
geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au
service Web La partie importante de la classe Service est de tenir la correspondance entre
la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de
donneacutees Autrement dit la classe service est responsable de mettre des correspondances
entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees
322 Impleacutementation du service de donneacutees dans PseudmonasDW
Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache
Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter
le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous
les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le
fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du
service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute
webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service
78
httptomcatapacheorg 79
httpwsapacheorgaxisoverviewhtml
105
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web
La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier
deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des
proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement
ltservicegt (Figure 22)
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web
Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont
Lrsquoattribut name indique le nom du service web
Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute
pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider
106
Java RPC qui permet drsquoexposer une classe Java quelconque en tant que
service Web
Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements
ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes
Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la
classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le
chemin vers la classe java compileacutee associeacutee au service Web (nous referons
ici agrave la classe Service)
Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes
exposeacutees par le service Web La valeur speacuteciale indique que nous avons
exposeacutes toutes les meacutethodes du serveur Web
La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service
dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil
drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur
de deacuteploiement du service via la commande suivante
java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd
-httphostnameportnumberwebServiceFolderNameservicesAdminService
Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService
WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute
effectueacutee par la saisie de la direction lsquohttphostnameportnumber
webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis
drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement
107
33 Scheacutema Inteacutegrateur du PseudmonasDW
Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de
sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche
deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de
lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les
donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute
effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des
sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct
est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des
informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune
redondance au niveau du scheacutema inteacutegrateur
Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des
informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour
identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons
appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du
scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema
global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
laquo Le scheacutema global correspond agrave la description des relations entre toutes les
donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de
leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo
(King et al 2008)
En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la
deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel
modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre
exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW
Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la
reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
(Figure 24)
108
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW
Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un
scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une
interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une
ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema
conceptuel
Une ontologie de domaine est une laquo description intentionnelle de ce qui nous
connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des
concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine
de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre
domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses
caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une
terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure
lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts
Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees
par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui
modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel
simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui
repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les
proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie
109
peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la
cateacutegorie des concepts relieacutes aux sources de donneacutees
Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les
entiteacutes biologiques (par exemple les classes gene genome protein
enzymehellip)
Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes
reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple
le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans
lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de
donneacutees originales Ce type de concept a un rocircle tregraves important pour garder
les traces de donneacutees dans PseudmonasDW
Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de
proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les
individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype
properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de
PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes
des objets
Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au
niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les
eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des
objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees
Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur
drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation
speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code
pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate
(Roychoudhury et al 1992)
Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase
sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo
algU reacutegule le gegravene algD
Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes
abreacuteviations que leurs gegravenes
Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif
Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132
110
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)
A partir de cet exemple nous pouvons deacuteduire
Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo
Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux
concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo
Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts
lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo
pour le concept lsquoEnzymersquo
Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du
concept lsquoProteinrsquo
Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie
standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de
OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de
domaine qui preacutesente une simple hieacuterarchie des concepts
34 Correspondances seacutemantiques entre les scheacutemas
En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin
drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements
approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de
ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une
111
des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees
(Toumani et al 2007)
Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As
View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des
sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente
une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue
deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de
donneacutees
Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de
sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de
correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de
donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que
nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA
P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath
Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie
En geacuteneacuterale nous avons deacutefinie trois types de mappings
112
Mapping des Classes ce type de mappings deacutefinie des associations entre les
classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere
suivante
XPath-Element-Location Ontology-Class-Name correspondence-
index
Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement
du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo
repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie
lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine
la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave
100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de
mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema
du BRENDA
ResultEnzymeEnzyme100
ResultEnzymeFunctional_ParameterKMKM100
Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les
proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il
srsquoeacutecrie comme suit
XPath-Domain-Location XPath-value-Location Ontology-Domain-
Name Property-Name correspondence-index
Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du
scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment
lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son
rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent
respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la
proprieacuteteacute de type de donneacutees lsquohasValuersquo
ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional
_ParameterKMKM_ValueKMhasValue100
ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu
nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal
ue100
Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes
drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere
suivante
113
XPath-Domain-Location XPath-Range-Location Ontology-Domain-
Name Ontology-Range-Name Property-Name correspondence-index
Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo
deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la
proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo
et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau
de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet
Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee
au scheacutema de source
ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti
onal_ParameterhasFunctionalParameter100
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web
Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des
infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de
programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application
distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour
mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter
tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains
drsquoentre eux
Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par
le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration
de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est
baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic
Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de
base pour construire des applications de Web seacutemantique il est disponible en tant que
serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour
consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)
Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le
meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire
seacutemantique (Semantic Directory)
Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et
al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure
27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO
est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les
relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV
114
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core
Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum
des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique
Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents
types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core
Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware
pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)
getOntology( url) listOntologies() and listOntologies(concept)
Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies
enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les
impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les
correspondances (mappings) entre le scheacutema de cette ressource et les ontologies
enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux
utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(
serviceName url queryMethod schemaMethod))
Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface
drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies
Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux
diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos
services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a
permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre
disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et
115
solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de
deacutetail dans la section 36)
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM
36 SB-KOM System Biology Khaos Ontology-based Mediator
Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un
systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute
SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes
2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a
eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des
sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est
composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et
lrsquoeacutevaluateurinteacutegrateur
Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et
coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des
116
reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et
assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes
provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats
conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en
terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type
de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient
les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de
domaine
Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des
plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans
geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees
pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees
Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il
y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de
domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des
scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees
seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme
correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath
sont actives dans la proprieacuteteacute
Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte
conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de
concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres
Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous
1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux
groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats
ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux
arguments (les proprieacuteteacutes)
2 Construire GS un ensemble de combinaisons entre les deux groupes en se
basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave
cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes
3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les
mapping enregistreacutees au niveau de SD-Core
4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les
arguments preacutedicats
a La variable instancieacutee constitue le nœud racine
b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour
la variable instancieacutee et les eacuteleacutements qui ne contiennent que la
variable instancieacutee (sans les autres variables) seront passeacutes au nœud
courant et eacutelimineacutes de GS
117
c Les eacuteleacutements qui contiennent une autre variable en plus de celle
instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres
nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees
seront repreacutesenteacutes par drsquoautres variables qui seront des variables
instancieacutees
d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour
chaque nouvelle variable instancieacutee
LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de
requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes
dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de
lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans
lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees
souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit
des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant
les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de
services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie
des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de
domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de
requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations
inutiles
4 PROCESSUS ETL DANS PSEUDOMONASDW
Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer
comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus
drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise
par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive
suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct
Ans(PEOGPW)-
Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym
e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)
ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn
(PPW)
Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee
lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un
organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de
cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies
118
meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des
donneacutees sur le gegravene qui code pour elle
Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en
terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de
donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P
Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient
les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de
cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de
donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism
IsEnzyme CodedBy et ParticipateIn) (Figure 29)
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge
La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et
qui sont relieacutees aux
Organism par le biais de la relation ForOrganism
Pathway par la relation ParticipateIn
Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi
agrave la classe Organism par la relation ForOrganism
Gene par la relation CodedBy
Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une
fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au
planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la
119
requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique
lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan
drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un
ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les
preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et
appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par
la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par
le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes
possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3
A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire
des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables
instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux
variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave
exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave
lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut
pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend
Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe
agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la
proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils
deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees
lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations
ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus
lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend
au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees
120
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte
Groupe Sous-requecircte Service de Donneacutees
G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA
Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors
que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque
nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes
par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-
requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave
lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter
Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant
Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour
notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la
proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le
nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de
classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques
dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-
requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de
donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee
avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher
les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce
que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le
service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)
parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG
Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments
(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes
lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo
A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees
extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des
instances des scheacutemas XML des sources sous-jacentes Le composant
Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles
121
de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine
enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de
domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles
sont produites de services de donneacutees diffeacuterents Afin de les associer
lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au
niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de
domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant
EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat
obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees
extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est
automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java
(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-
db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees
XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de
donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW
122
Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL
(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees
souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les
services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la
transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les
instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer
dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La
derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a
permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif
(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein
de PseudmonasDW
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
123
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
5 DISCUSSION ET CONCLUSION
Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels
du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en
bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et
donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui
caracteacuterisent les donneacutees biologiques
Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et
analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon
doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus
quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont
pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques
caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique
De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus
complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de
processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute
La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie
par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel
environnement
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de
Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de
multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement
drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et
reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes
124
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes
Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour
extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs
forment une partie importante dans les services de donneacutees qui fournissent des moyens
pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de
donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une
interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les
donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM
Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous
somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui
offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De
cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance
(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema
inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de
domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts
et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de
lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement
aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees
dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques
bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration
seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs
avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement
stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre
part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le
meacutediateur
Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que
leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se
distingue des autres sur diffeacuterents points
125
Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une
diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de
connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique
et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des
donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de
GO
Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement
adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique
appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans
PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema
global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema
afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une
modification profonde du scheacutema
Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des
sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des
donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas
la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la
non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute
Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation
Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne
maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans
PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local
dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
126
CHAPITRE 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp
127
Chapitre 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes
Pseacuteudomonas Sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163
1 INTRODUCTION
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces
bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de
certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee
par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et
chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute
de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de
Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique
128
Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de
donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme
Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI
Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82
National Center for Biotechnology Information (NCBI) Microbial Genomes83
(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de
donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques
sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne
pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que
Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site
Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune
grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent
sur le suivi des changements des annotations et de permettre leur comparaison entre les
espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part
Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees
fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de
donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et
fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais
manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les
voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas
la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees
qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas
aeruginosa PAO1
Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le
chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui
regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece
de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour
une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase
de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les
acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique
aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de
PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires
concernant les espegraveces de Pseudomonas
80
httpimgjgidoegov 81
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82
httpwwwxbaseacuk 83
httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84
httpwwwmicrobesonlineorg 85
httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86
httpwwwpseudomonas-syringaeorg 87
httpwwwpseudomonascom
129
2 MODEacuteLISATION DE PSEUDOMONASDW
Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il
est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de
passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les
proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle
dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de
nombreux choix qui auront des reacutepercussions importantes dans la suite
La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux
drsquoabstraction diffeacuterents
Modegravele conceptuel repreacutesente le contenu de la base en termes
conceptuels indeacutependamment de toute consideacuteration informatique
Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un
scheacutema propre agrave un type de base de donneacutees
Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et
drsquoaccegraves aux donneacutees de la base
La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des
systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins
des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle
consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux
domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains
aspects des systegravemes physiques ou humains et de leur environnement
Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee
gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling
Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et
son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques
et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur
lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par
ce langage pour la conception de PseudomonasDW
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW
Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de
PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une
88
Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage
130
fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle
joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)
et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun
utilisateur exteacuterieur le voit
Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur
(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le
biologiste)
Table4 La liste des acteurs
Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via
lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies
par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit
Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en
introduisant son URL
Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des
mots cleacutes via son interface web
Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en
utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme
a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)
Table5 les cas drsquoutilisation de lrsquoutilisateur
Acteur Cas drsquoutilisation
Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet
PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web
Administrateur Le superviseur du systegraveme
Cas drsquoutilisation
Etablissement drsquoune connexion avec le systegraveme
Interrogation du systegraveme
Analyse de donneacutees
131
b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)
Figure 33 Le diagramme de cas dutilisation de lutilisateur
PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees
stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du
PseudomonasDW sont comme suit
Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par
lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du
systegraveme
Construction du reacutesultat
Translation du reacutesultat en un format lisible par lrsquoutilisateur
a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)
Table 6 les cas drsquoutilisation de PseudomonasDW
Cas drsquoutilisation
Translation de la requecircte
Construction du reacutesultat
Translation du reacutesultat
132
b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW
Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer
nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser
lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent
le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit
Inteacutegration de donneacutees au sein de PseudomonasDW
Nettoyage de donneacutees en eacuteliminant les redondances
Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de
donneacutees en fonction des sources originales
Maintenance de lrsquoentrepocirct de donneacutees
Maintenance de lrsquointerface Web
Ajout des fonctionnaliteacutes en cas de besoin
a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)
Table 7 les cas drsquoutilisation de lrsquoadministrateur
Cas drsquoutilisation
Inteacutegration de donneacutees
Nettoyage de donneacutees
Mise agrave jour de donneacutees
Maintenance de PseudomonasDW
Maintenance de lrsquointerface Web
Ajout de fonctionnaliteacutes
133
b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)
Figure 35 Le diagramme de cas dutilisation de ladministrateur
22 Diagrammes de seacutequence du systegraveme PseudomonasDW
Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets
selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects
dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes
sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute
drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du
Siemens Pattern Group (Buschmann et al 1996)
Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des
messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW
(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les
diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son
reacutecepteur
134
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur
Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de
PseudomonsDW
message eacutemetteur reacutecepteur
1 Demande de connexion Utilisateur Web app
2 Etablissement de connexion Web app Utilisateur
3 Envoi de requecircte via des formulaires HTML Utilisateur Web app
4 Reacuteception de requecircte Web app Web app
5 Geacuteneacuteration de requecircte XQuery Web app Web app
6 Envoi de la requecircte XQuery Web app PDW DB
7 Interrogation des indexes PDW DB PDW DB
8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB
9 Construction de reacutesultat XML PDW DB PDW DB
10 Transformation de reacutesultat de XML en XHTML PDW DB Web app
11 Affichage de reacutesultat en forma XHTML Web app Utilisateur
135
23 Diagramme de classes du systegraveme PseudomonasDW
Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la
modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les
composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des
eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations
Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les
diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de
la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir
les diffeacuterentes classes et relations composant notre diagramme de classe
Le diagramme de classe de PseudomonasDW est constitueacute de six classes
principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)
auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de
raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous
a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses
diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des
bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes
en trois sections la section supeacuterieure contient le nom de la classe la section centrale
deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les
diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation
qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui
sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de
composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base
3 IMPLEMENTATION DE PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese
est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de
Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les
applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources
multiples
Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre
diviseacutes en deux familles (Mahboubi et al 2009)
La premiegravere famille propose une modeacutelisation multidimensionnelle pour les
entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en
eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des
dimensions et offrent un support pour des outils danalyse
136
Les approches de la seconde famille abordent la probleacutematique de lentreposage de
documents XML Elles perccediloivent un entrepocirct XML comme une collection de
documents XML
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous
sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les
donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML
Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML
Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des
documents XML obtenus de la transformation des instances RDF au niveau de notre
entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons
donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases
de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees
XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)
31 Organisation des bases de donneacutees de PseudomonasDW
Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du
genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base
de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection
des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees
selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des
scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce
modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de
lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de
PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons
nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo
137
Figure 37 Le diagramme conceptuel de PseudomonasDW
138
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW
Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees
Genomes complets
Pseudomonas aeruginosa PAO1 6264404 5682 5556
Pseudomonas aeruginosa M18 6327754 5764 5684
Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269
Pseudomonas aeruginosa LESB58 6601757 6061 5908
Pseudomonas aeruginosa PA7 6588339 6369 6246
Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886
Pseudomonas fluorescens PfO-1 6438405 5829 5714
Pseudomonas fluorescens Pf-5 7074893 6233 6137
Pseudomonas fluorescens SBW25 6722539 6106 5921
Pseudomonas fluorescens F113 6845832 5953 5862
Pseudomonas putida F1 5959964 5403 5245
Pseudomonas putida GB-1 6078430 5529 5408
Pseudomonas putida KT2440 6181863 5516 5350
Pseudomonas putida W619 5774330 5309 5182
Pseudomonas putida BIRD-1 5731541 5046 4960
Pseudomonas putida S16 5984790 5307 5171
Pseudomonas syringae pvphaseolicola 6112448 5437 5172
Pseudomonas syringae pvtomato 6397126 5688 5481
Pseudomonas syringae pvsyringae 6093698 5220 5089
Pseudomonas stutzeri A1501 4567418 4210 4128
Pseudomonas stutzeri DSM 4166 4689946 4372 4301
Pseudomonas stutzeri ATCC 17588 4547930 4287 4181
Pseudomonas entomophila L48 5888780 5275 5134
Pseudomonas mendocina ymp 5072807 4704 4594
Pseudomonas mendocina NK-01 5434353 5035 4954
Pseudomonas brassicacearum NFM421 6843248 6176 6081
Pseudomonas fulva 12-X 4920769 4540 4459
Genomes incomplets
Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207
Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905
Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221
Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096
Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402
Pseudomonas chlororaphis - - 218
Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts
(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie
meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements
figureacutes directement apregraves lrsquoeacuteleacutement racine
Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur
organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees
correspondante
Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au
gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee
Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees
sous lrsquoeacuteleacutement laquoProteinDataraquo
139
Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans
PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte
deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes
Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les
diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans
lrsquoentreacutee
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1
32 Impleacutementation des bases de donneacutees de PseudomonasDW
En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees
sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML
deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la
version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome
qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute
Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des
servlets pour lrsquoaccegraves distant
89
httpjettycodehausorgjetty
140
La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de
charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents
XML dans 33 collections une collection pour chaque espegravece entreposeacute dans
PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre
application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery
Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de
fonctions de XQuery
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW
90
XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML
141
4 INTERFACE WEB DE PSEUDOMONASDW
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
41 Les Moteurs de rechercheacute dans PseudomonasDW
Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des
moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees
XML natives
Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les
pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur
quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute
qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de
recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de
recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas
parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu
laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ
speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-
down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la
proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave
minimiser le temps et la complexiteacute de la recherche
Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la
possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce
formulaire de recherche ou moteur de recherche propose des champs de recherche
multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de
Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein
Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons
aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs
espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la
possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees
Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant
de 1 agrave 33
142
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche
143
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute
144
Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue
nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave
quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de
donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML
et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues
HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a
eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et
convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de
PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans
quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis
Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML
Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta
Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3
42 Les entreacutees de Pseudomonas DW
Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq
sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la
section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont
listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune
section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de
PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee
dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails
des cinq sections
La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces
informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la
langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant
pour les proteacuteines et les ARN
La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en
question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom
scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les
diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la
seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de
transcriptions les sites de liaison et les sites de mutations ou de modification Cette section
offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du
gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A
partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage
145
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524
146
La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle
contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui
permet un affichage et une lecture tregraves simple Les informations de cette section sont
repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la
proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et
lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes
caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les
reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que
la seacutequence peptidique de la proteacuteine
La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine
deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission
numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees
enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions
catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats
et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des
informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des
informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des
paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo
La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans
lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement
propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de
donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)
lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie
meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique
preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les
composants et les modules de la voie meacutetabolique
Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les
entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou
lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo
deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas
(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis
Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la
proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la
retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la
proteacuteine dans des voies meacutetaboliques
147
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW
Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees
biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types
Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees
bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper
ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant
Ces outils doivent donc ecirctre
Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet
Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs
Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre
de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre
obligeacute de jongler avec diffeacuterentes sources dinformations
Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des
biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les
premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les
deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la
visualisation des annotations associeacutees Cette classification est toutefois quelque peu
scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de
donneacutees outils dinterrogation et outils de navigation sur le geacutenome
Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation
aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes
agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique
quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce
manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et
inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre
outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires
entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces
stockeacutees dans PseudomonasDW
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)
Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas
facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs
points forts et plusieurs faiblesses
91
DataBank browsers 92
Genome browsers
148
Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente
la meilleure application pour la geacutenomique comparative mais dautre part un autre
navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec
beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de
deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et
qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest
pas aussi riche que Ensembl
Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux
besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave
Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen
attentif
Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur
geacutenomique pour PseudomonasDW
Ensembl est toute une application libre de droit dauteur sur son code source
qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le
neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute
et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse
ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et
la deacutecouverte et la reacutesolution de bugs plus difficile
Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des
avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute
que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le
fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans
le site Web Or la plupart des bases et banques de donneacutees geacutenomiques
existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme
navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs
utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le
trouveront plus aiseacute agrave manipuler
Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur
geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des
geacutenomes en plus de la rapiditeacute qui est indispensable
Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs
geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux
autres navigateurs (Sen et al 2010)
93
httpgmodorgwikiGBrowse
149
511 GBrowse Vue geacuteneacuterale
GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui
correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de
donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord
speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des
subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut
national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License
(ou GPL)
GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation
graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres
eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives
comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave
ADN GBrowse propose les fonctionnaliteacutes suivantes
vue globale et vue deacutetailleacutee du geacutenome
deacutefilement zoom et centrage
utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien
personnaliseacutees
joindre une URL arbitraire agrave une annotation
ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur
final
recherche par ID annotation nom ou commentaire
connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95
support multi-langues
prise en charge des annotations agrave partir du format GFF96
persistance des paramegravetres de session agrave session
plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de
nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des
cartes de restriction eacutediter des fonctions)
512 Installation de GBrowse
Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous
avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite
lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons
eu besoin drsquoinstaller
94
httpwwwbiosqlorgwikiMain_Page 95
httpgmodorgwikiChado_-_Getting_Started 96
httpgmodorgwikiGFF
150
Apache Web Server97
Perl 598
Les modules de Perl suivants
o GCI
o GD
o DBI
o DBD mysql
o Digest MD5
o Text shellwords
Bioperl99
Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi
drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une
installation automatique de GBrowse
adminadmin~$ sudo apt-get install gbrowse gbrowse-calign
gbrowse-data
La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les
donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de
gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec
sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape
drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des
adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature
que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD
le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est
le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations
au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer
la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB
SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le
plus reacutecent des adaptateurs et le plus recommandeacute
513 Creacuteation et peuplement des bases de donneacutees MySQL
Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une
eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par
PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque
chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees
relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce
97
httphttpdapacheorg 98
httpdevperlorgperl5 99
httpwwwbioperlorgwikiMain_Page
151
contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la
banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos
besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers
GFF3
La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de
donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait
la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans
PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees
pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees
MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par
lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse
adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn
dbimysqlDB_Name --user root --password
varlibgbrowsedatabasesfilegff3
La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles
soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de
fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la
forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de
GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui
152
srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le
paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de
configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi
nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour
donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante
Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse
nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un
onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave
lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil
GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage
reacutesultante
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011
153
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW
521 Blast Vue geacuteneacuterale
Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences
(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une
seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme
dun package composeacute des programmes suivants
blastn blast nucleacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques
blastp blast proteacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
proteacuteiques
blastx blast nucleacuteique vs proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
proteacuteiques
tblastn blast proteacuteique vs nucleacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
nucleacuteiques
tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences
nucleacuteiques
Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse
comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir
teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une
base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme
lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle
base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA
Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais
son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct
de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees
proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute
une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette
application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de
le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web
154
522 La fonctionnaliteacute du Blast
Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les
seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la
page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de
PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans
PseudomonasDW
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW
La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la
possibiliteacute de PrimeblasterPrime ses seacutequences contre
Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences
(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences
agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees
comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le
choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la
partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses
extreacutemiteacutes
Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire
de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette
155
option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des
bases de donneacutees stockeacutees au niveau de PseudomonasDW
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW
156
Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java
lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en
extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le
sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs
drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi
deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement
une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui
sera retourneacutee agrave lrsquoutilisateur via son navigateur Web
Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral
Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme
de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une
petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine
lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes
seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession
dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les
scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en
deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage
drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement
obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple
drsquoalignement
157
Figure50 Exemple de reacutesultat de Blast
6 PDWiki
Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons
deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de
donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des
informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies
meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts
diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive
Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les
Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous
introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa
maniegravere drsquoaccegraves
158
61 Geacuteneacuteraliteacute sur les Wikis biologiques
Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat
sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web
sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre
simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun
navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est
maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des
donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis
biologiques (bio-wikis) comprennent
Le deacuteveloppement collaboratif et le partage des connaissances
Lrsquoannotation collaborative de contenus de bases de donneacutees
La creacuteation collaborative de contenus de bases de donneacutees
Le deacuteveloppement collaboratif et le partage de la documentation et des
connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un
consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des
nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de
conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont
geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de
recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets
biologiques speacutecialiseacutes
Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait
que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement
coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de
donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux
utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats
indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler
cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien
que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de
donneacutees elles-mecircmes restent inchangeacutees
La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans
les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de
donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement
deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums
et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite
100
httpwwwwikipediaorg
159
62 PDWiki Infrastructure et contenue
PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki
baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et
correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des
extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de
diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104
automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de
MediaWiki
MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de
nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen
des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une
bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de
MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le
principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des
bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de
lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La
classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees
de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe
lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo
est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure
geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec
PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle
elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo
PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de
PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le
premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations
suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour
chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de
plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas
limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et
lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus
La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee
correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans
PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le
101
httpwwwmediawikiorgwikiMediaWiki 102
httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103
httpwwwmediawikiorgwikiExtension_Matrix 104
httpenwikipediaorgwikiWikipediaBots 105
httpjwbfsourceforgenet
160
nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans
PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas
modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir
PseudmonasDW
La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle
appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece
Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page
speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations
suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom
de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au
moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo
La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque
espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page
lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est
conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW
Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les
utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par
lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils
peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces
informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les
interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie
de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les
sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies
meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs
peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des
reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les
activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier
les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des
informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents
composants dans la section lsquoPathwaysrsquo
Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources
dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et
contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee
161
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW
lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils
contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo
162
pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la
page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease
alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des
gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)
lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation
ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de
certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une
liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de
cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene
Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo
Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie
meacutetabolique apparaissant dans une page lsquoPDWEPrsquo
63 Comment naviguer dans PDWiki
Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la
recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des
pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur
163
gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct
sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est
de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de
recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les
pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au
sein de PDWiki en utilisant le formulaire de recherche
Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque
espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave
une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre
PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible
daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa
Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire
de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple
et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a
plusieurs avantages certains dentre eux sont
Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo
quand quelquun fait des modifications au niveau des pages de PDWiki
Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et
une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres
utilisateurs
Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages
qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106
7 DISCUSSION
Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes
modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm
2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves
Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de
Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans
cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base
de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des
bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire
agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur
lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les
plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de
106
httpwwwmediawikiorgwikiManualWatchlist
164
Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en
comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees
PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees
laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre
pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines
interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait
ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base
de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee
eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de
PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des
informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees
aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de
PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies
meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des
informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c
oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation
oxydative et la voie meacutetaboliques
Dautre part PseudomonasDW fournit des informations sur un ensemble plus
vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux
ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces
sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas
aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1
Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM
4166 et Pseudomonas chlororaphis
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
165
CONCLUSIONS ET PERSPECTIVES
166
Conclusions eacutet peacuterspeacutectiveacutes
Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante
bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3
comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon
rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur
mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile
et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P
syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain
Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des
infections pulmonaires mortelles chez les patients atteints de fibrose kystique
Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la
recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes
geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations
Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une
heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont
actuellement disponibles publiquement les types de donneacutees sont divers et les ressources
sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent
une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour
deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour
deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des
formats plus standard tels que XML (eg GenBank) A noter que les banques proposent
souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats
est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)
objet (eg Gus) ou semindashstructureacute (eg GenBank)
Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier
lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-
Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la
proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de
deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la
167
confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une
mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque
Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les
langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)
dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des
langages structureacutes tels que SQL (Genopage) ou OQL (Gus)
La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations
lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible
leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la
bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources
de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette
automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine
pour une recherche plus efficace des informations et une meilleure exploitation des
reacutesultats
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute
proposeacutees les approches navigationnel entrepocirct et meacutediateur
Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont
extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les
deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des
sources ce sont des portails et des meacutediateurs
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement
les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
168
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement
inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le
cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe
KHAOS de lrsquouniversiteacute de Malage
Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de
donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les
sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent
autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees
biologiques
Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des
sources de donneacutees biologiques et comportent une description des divers niveaux
drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des
solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme
navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine
entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une
inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine
biologique afin de proposer une solution drsquointeacutegration simple et flexible
Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre
des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin
drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee
1 REacuteSUMEacute DES CONTRIBUTIONS
Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne
fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur
exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se
sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent
169
principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que
possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers
et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos
travaux concernent plusieurs points
Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees
biologiques de Pseudomonas Sp
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas
requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de
donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi
proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees
heacuteteacuterogegravenes
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW
integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq
sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot
BRENDA et KEGG
Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les
donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie
importante dans les services de donneacutees qui fournissent des moyens pour interroger et
correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le
processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des
requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les
transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services
de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees
Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce
manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine
de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute
utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de
donneacutees un service pour une source de donneacutees
PseudomonasDW integravegre des sources de donneacutees offrant des informations
chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets
170
eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique
pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration
seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global
inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un
scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous
les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global
de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare
citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle
sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les
sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau
de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune
modification profonde
Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le
meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute
notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a
joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM
Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation
preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances
permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances
retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation
automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de
donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part
les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une
interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees
sont virtuellement acheveacutees en utilisant le meacutediateur
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
171
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune
installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave
certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige
une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse
surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la
plateforme Linux
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes
baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents
XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui
contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents
XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement
(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33
collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
172
Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques
pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons
incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il
affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des
gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est
un programme permettant de reacutealiser des alignements et des comparaisons locaux entre
deux seacutequences (nucleacuteiques ou proteacuteiques)
PseudomonasDW contient 170000 entreacutes et fournit des informations sur un
ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave
10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome
database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa
NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244
Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC
17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis
La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les
voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies
et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des
sections speacutecifiques pour les enzymes et les voies meacutetaboliques
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
2 OUVERTURE ET PISTES DE RECHERCHE
La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave
disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves
nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension
anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre
deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant
Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et
consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette
thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs
173
Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous
focalisant sur plusieurs points particuliers
Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW
Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance
accordeacutee agrave la source et sa qualiteacute estimeacutee
Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la
performance des donneacutees stockeacutees au niveau de PseudomonasDW
Automatiser la recherche de correspondance entre eacuteleacutements des
scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour
rendre lrsquoajout des nouvelles sources de donneacutees plus facile
Concernant lrsquointeacutegration des donneacutees
Inteacutegrer non seulement des sources de donneacutees mais aussi des services
Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres
anneacutees dans le domaine biologique et les perspectives offertes
semblent tregraves prometteuses
Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de
preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour
fouiller et comparer les donneacutees inteacutegreacutees
174
GLOSSAIRE
175
Glossaireacute
Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois
nucleacuteotides (codons) dans lrsquoARN
ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation
geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le
chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN
macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des
chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement
(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN
formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se
dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du
pheacutenomegravene de reacuteplication
Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions
hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus
complexe
Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences
codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation
syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les
entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit
les sources de donneacutees biologiques
API (Application Programming Interface) Interface pour langages de programmation
mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme
pour par exemple communiquer ou extraire des donneacutees
ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de
ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une
seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de
transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques
Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences
comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour
deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions
drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui
permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des
proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes
Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non
Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule
drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune
hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les
cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion
176
agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la
division cellulaire
Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros
serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et
unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture
est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees
Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte
deacutecisionnel deacutecentraliseacute
Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de
donneacutees exemple dimension temporelle dimension proteacuteique hellip
Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur
conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme
moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs
du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur
DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par
Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document
SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu
constitueacute par leurs sous-eacuteleacutements et leurs attributs
Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les
organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est
fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype
Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le
geacutenome nucleacuteaire
Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central
de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines
notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes
de reacutegulation
Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee
numeacuterique
FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et
William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le
programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines
Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et
porteur drsquoune information geacuteneacutetique
Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece
Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties
drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome
177
GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et
distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix
HTML (HyperText Markup Language) Langage de description de pages Web Un standard
initieacute par le W3C et compatible tous systegravemes
Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes
Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement
diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble
Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN
correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation
Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position
choisie)
Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme
drsquoun scheacutema de donneacutees
MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant
une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui
explique les performances Dans le second les jointures entre les tables de dimension et de fait sont
effectueacutees au moment de la requecircte
OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place
drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une
cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs
dimensions
Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin
OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de
lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant
Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave
linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le
deacuteclenchement de la transcription) et un ou plusieurs gegravenes
OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par
lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et
collections
Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports
baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration
systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau
(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de
maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec
celui-ci
178
Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique
(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique
notamment Un comportement particulier tout comme une combinaison de comportements
peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou
plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes
et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un
caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou
moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement
deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son
alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse
existe eacutegalement)
Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui
apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations
auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul
Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique
Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave
30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent
des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=
le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour
assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de
lrsquoinformation
Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une
comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un
support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou
ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees
compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus
ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit
syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le
type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et
quantifieacutes
Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser
les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le
principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave
CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot
contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN
tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-
repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du
meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De
maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment
correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de
caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents
dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des
suppresseurs de tumeurs
179
Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir
du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un
support meacutetallique et analyseacutees par spectromeacutetrie de masse
ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de
lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles
Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc
sous une forme plus deacutetailleacutee
Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe
concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine
informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des
informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux
neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies
Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides
amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN
(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage
drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit
fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes
Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie
par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides
(polymegraveres de nucleacuteotides)
Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet
indeacutependamment des plates-formes et des langages sur lesquelles elles reposent
SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels
permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du
domaine drsquoapplication
Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier
des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de
masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe
reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport
massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines
scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages
biologie meacutedecine
SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de
programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans
des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut
extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de
donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus
complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de
180
modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de
donneacutees et daccegraves
Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance
lrsquoidentification des formes vivantes et leur rangement dans une classification
Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome
URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur
uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant
lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour
adresser les ressources du World Wide Web telles que des documents HTML des images ou des
sons
Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet
Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct
et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux
ordinateurs et aux humains de travailler en plus eacutetroite collaboration
XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et
de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications
en diffeacuterents environnements hardware et software
Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements
dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un
sur-ensemble de XPath
181
ANNEXES
182
Anneacutexeacute 1 UML
La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996
UML est une norme de lOMG (Object Management Group) qui est un consortium des
principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive
homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune
seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants
UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent
ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre
UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des
systegravemes informatiques
Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur
Modegravele des classes capture la structure statique
Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages
Modegravele des eacutetats exprime le comportement dynamique des objets
Modegravele de deacuteploiement preacutecise la reacutepartition des processus
Modegravele de reacutealisation montre les uniteacutes de travail
Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant
correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de
diagrammes
Diagramme des classes structure statique il repreacutesente les classes
intervenant dans le systegraveme
Diagramme des eacutetatstransitions comportement dune classe en termes
deacutetats
Diagramme dobjets repreacutesentation des objets (des occurrences des
classes) et de leur relations ils correspondent agrave des diagrammes de
collaboration simplifieacutes (sans envoi de message)
183
Diagramme des paquetages un paquetage eacutetant un conteneur logique
permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le
Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages
crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions
Diagramme de structure composite permet de deacutecrire sous forme de
boicircte blanche les relations entre composants dune classe
Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs
interactions
Diagramme de communication repreacutesentation simplifieacutee dun diagramme
de seacutequence se concentrant sur les eacutechanges de messages entre les objets
Diagramme global dinteraction permet de deacutecrire les enchaicircnements
possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de
diagrammes de seacutequences
Diagramme de temps permet de deacutecrire les variations dune donneacutee au
cours du temps
Diagramme des cas dutilisation il permet didentifier les possibiliteacutes
dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les
fonctionnaliteacutes que doit fournir le systegraveme
Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration
en termes dactions
Diagramme de composants repreacutesentation des composants physiques
dune application
Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les
steacutereacuteotypes des classes ou des packages
Diagramme de deacuteploiement repreacutesentation du deacuteploiement des
composants sur les dispositifs mateacuteriels
184
Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes
Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la
premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de
Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute
dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant
devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une
deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante
Une base de donneacutees XML native deacutefinit un modegravele logique pour un document
XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au
minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du
document
Une base de donneacutees XML native gegravere le document XML comme une uniteacute
fondamentale de stockage comme une ligne dans une table relationnelle
Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent
particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique
orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers
compresseacutes indexeacutes
La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de
donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain
nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de
donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de
lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc
La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale
dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible
qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents
lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des
bases de donneacutees XML actuelles
La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas
important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de
185
donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest
pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait
envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees
XML native comme eXist lrsquoa fait agrave ses deacutebuts
Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement
pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les
transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des
langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc
parfaitement dans notre approche entiegraverement baseacutee sur XML
186
Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute
Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de
donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate
Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute
sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace
drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience
drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel
Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage
propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves
actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est
compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un
processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une
application
eXist fournit un stockage sans scheacutema des documents XML dans des collections
hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des
documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs
peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents
contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement
de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification
rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-
descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de
chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement
les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de
documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions
La base de donneacutees convient bien aux applications manipulant des petites ou larges
collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute
conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant
lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes
XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath
187
et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre
autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres
Architecture drsquoeXist
eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement
agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents
XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale
Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement
seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des
courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et
les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques
comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles
possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un
ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et
XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du
cœur drsquoeXist
eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut
fonctionner comme un processus serveur autonome fournissant des interfaces http et
XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles
peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut
fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-
RPC SOAP109 et WebDAV110 sont fournis par les servlets
Figure 53 Architecture deXist copy Wolfgang Meier
107
httpxmlrpcscriptingcomspechtml 108
httpxmldb-orgsourceforgenetxapixapi-drafthtml 109
httpwwww3org2000xpGroup 110
httpwwwietforgrfcrfc2518txt
188
BIBLIOGRAPHIE
189
Bibliographieacute
Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125
Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary
Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442
Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410
Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381
Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29
Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress
Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press
Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520
Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155
Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE
Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178
Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37
Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15
Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863
Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314
190
Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104
Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333
Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille
Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7
Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53
Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet
Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons
Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192
Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates
Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences
Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193
Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93
Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69
Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis
Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148
Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306
Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie
Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592
Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74
191
Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87
Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345
Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979
Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy
Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique
Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531
Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572
Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53
Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822
Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc
Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432
Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20
Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57
Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128
Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68
Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469
Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris
Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73
192
Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research
Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8
Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788
Gautier C (1981) Nucleic acid sequences handbook Praeger
Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523
Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance
Griffith A (2005) Java XML and the JAXP In Wiley (ed)
Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928
Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174
Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264
Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153
Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511
Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9
Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119
Harold ER and Means WS (2004) XML in a Nutshell OReilly Media
Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA
Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915
Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60
Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190
Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448
Hunter J (2003) X is for Query Oracle Magazine
Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York
Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)
193
Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541
Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology
Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)
Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30
Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357
Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280
Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59
Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169
Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley
Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337
Kimball R (2002) data warehouse toolkit
Kimball R (2003) The Bottom-Up Misnomer
King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18
Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper
Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web
Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597
Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283
Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138
Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni
Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170
194
Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268
Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441
List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215
MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA
Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562
Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144
Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348
Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105
Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381
Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378
Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755
McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)
McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587
Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34
Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376
Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477
Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537
Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall
Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65
195
Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269
Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga
Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622
Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230
Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2
Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846
Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125
Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350
Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163
Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171
Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)
Rehm B (2009) Pseudomonas Wiley-VCH
Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557
Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996
Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149
Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84
Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010
Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696
Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236
Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243
Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871
196
Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York
Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186
Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188
Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141
Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298
Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73
Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110
Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276
Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298
Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis
Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717
Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49
Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488
Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6
Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150
Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373
Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33
197
Reacute feacute reacutenceacutes Inteacuterneacutet
198
Reacute feacute reacutenceacutes Inteacuterneacutet
(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml
AmiGO httpamigogeneontologyorgcgi-binamigogocgi
Apache Server httphttpdapacheorg
ArrayExpress httpwwwebiacukarrayexpress
ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm
Axis httpwsapacheorgaxisoverviewhtml
BioCyc httpbiocycorg
BioGrid httpthebiogridorg
Bioperl httpwwwbioperlorgwikiMain_Page
biosql httpwwwbiosqlorgwikiMain_Page
Blast httpblastncbinlmnihgovBlastcgi
Bots httpenwikipediaorgwikiWikipediaBots
BRENDA httpwwwbrenda-enzymesinfo
Chado httpgmodorgwikiChado_-_Getting_Started
ChEBI httpwwwebiacukchebi
CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
core httpdublincoreorg
CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast
dbEST httpwwwncbinlmnihgovdbEST
dbSNP httpwwwncbinlmnihgovprojectsSNP
DDBJ httpwwwddbjnigacjp
Dublin Core httpdublincoreorg
EBI httpwwwebiacuk
EcoCyc httpecocycorg
EMBL httpwwwemblde
EMBO httpwwwemboorg
ensEMBL httpwwwensemblorgindexhtml
Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric
Entrez httpwwwncbinlmnihgovsitesgquery
EPConDB httpwwwcbilupenneduepcondb42
eXist httpexistsourceforgenet
199
ExPASy httpexpasyorg
ExPASy httpexpasyorg
Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix
FASTA httpwwwebiacukToolssssfasta
Flybase httpflybaseorg
Garlic httpwwwalmadenibmcomcsgarlic
Gbrowse httpgmodorgwikiGBrowse
GDB httpgdbwwwgdborg
Genbank httpwwwncbinlmnihgovnuccore
GeneCards httpwwwgenecardsorg
GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame
GEO httpwwwncbinlmnihgovgeo
GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
GFF httpgmodorgwikiGFF
GO httpwwwgeneontologyorg
HGNC httpwwwgenenamesorg
IMG httpimgjgidoegov
inmon httpenwikipediaorgwikiBill_Inmon
InterPro httpwwwebiacukinterpro
Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml
JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
jena httpjenaapacheorg
Jetty httpjettycodehausorgjetty
JWBF httpjwbfsourceforgenet
KEGG httpwwwgenomejpkegg
LION Bioscience AG httpwwwbiochipnetcomnode1561
MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings
Medline httpwwwmedlinecom
MeSH httpwwwnlmnihgovmesh
MetaCyc httpmetacycorg
MGI httpwwwinformaticsjaxorg
Microbes Online httpwwwmicrobesonlineorg
MIPS httpwwwhelmholtz-muenchendeenibis
MySQL httpwwwmysqlcom
NCBI httpwwwncbinlmnihgov
NIH httpwwwnihgov
OBO httpwwwobofoundryorg
ODMG wwwodmgorg
OMIM httpwwwomimorg
ORACLE httpwwworaclecomindexhtml
OWL httpwwww3orgTR2009WD-owl2-primer-20090611
PDB httpwwwrcsborgpdbhomehomedo
200
peer-review literature httpenwikipediaorgwikiPeer_review
perl httpdevperlorgperl5
Pfam httppfamsangeracuk
PhosphGrid httpwwwphosphogridorg
Plasmodb httpplasmodborgplasmo
ProDom httpprodomprabifrprodomcurrenthtmlhomephp
PRODORIC httpwwwprodoricde
Proteacutegeacute httpprotegestanfordedu
Pseudomonas Genome Database httpwwwpseudomonascom
Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg
PseudomonasDW httpwwwpseudomonasdwkhaosumaes
PubMed httpwwwncbinlmnihgovpubmed
Qexo httpwwwxmlcompuba20030611qexohtml
RDF httpwwww3orgTRrdf-concepts
RDFS httpwwww3orgTRrdf-schema
RefSeq httpwwwncbinlmnihgovRefSeq
RiboWeb httphelix-webstanfordeduribowebhtml
SGD database httpwwwyeastgenomeorg
SRS httpsrsebiacuk
Tomcat httptomcatapacheorg
UML httpwwwumlorg
UMLS httpwwwnlmnihgovresearchumls
UniGene httpwwwncbinlmnihgovunigene
UniProt httpwwwuniprotorg
W3C httpwwww3org
watchlist httpwwwmediawikiorgwikiManualWatchlist
WebDAV httpwwwietforgrfcrfc2518txt
Wikipedia httpwwwwikipediaorg
xBASE httpwwwxbaseacuk
XML httpwwww3schoolscomxml
XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml
XML-RPC httpxmlrpcscriptingcomspechtml
XML-RPC SOAP httpwwww3org2000xpGroup
ZFIN httpzfinorg
2
Reacutemeacutercieacutemeacutents
3
Reacutemeacutercieacutemeacutents
Je tiens agrave adresser mes plus sincegraveres remerciements au professeur Badr Din Rossi Hassani
pour mrsquoavoir accepteacute dans son laboratoire et inteacutegreacute dans son eacutequipe et de mrsquoavoir encadreacute
et aideacute tout au long de ses anneacutees de thegravese
Je remercier eacutegalement le professeur Joseacute F Aldana Montes pour avoir accepteacute de Co-
encadrer cette thegravese pour mrsquoavoir accueilli si chaleureusement dans son eacutequipe de
recherche et pour mrsquoavoir fait part de ses remarques pour mener agrave bien mes recherches
Je remercie tregraves sincegraverement tous les membres du jury qui ont eu la lourde tacircche de juger
mon travail
Jrsquoexprime toute ma profonde et sincegravere reconnaissance agrave tous les membres du groupe
khaos Je remercie tout particuliegraverement Ismael Navas Delgado merci pour ton aide et ton
preacutecieux soutien
A mon pegravere et ma megravere qui malgreacute lrsquoeacuteloignement ont cru en moi mrsquoont toujours apporteacute
leur soutien sans faille Je les remercier de toute lrsquoaffection et tout lrsquoamour qursquoils mrsquoont
teacutemoigneacutes
Toute ma reconnaissance et ma gratitude pour mon cher fregravere Mohamed qui mrsquoa aideacute avec
une indeacutefectible patience Merci pour ton amour inconditionnel et pour ton
encouragement
Merci agrave mon fianceacute drsquoecirctre toujours avec moi Merci pour ton soutien reacutegulier tes
compeacutetences ainsi que ton inteacuterecirct pour la bioinformatique qui auront fortement contribueacute agrave
lrsquoavancement de ce travail
Finalement je tiens agrave remercier du fond du cœur ma famille Marrakchi mon petit fregravere
Amine ma bellendashsœur Adiba qui a la position drsquoune vraie sœur ainsi que ses petits ma
grande megravere laquo al haja raquo ma tante Doha mon beau-pegravere ma belle-megravere et toute la famille
Briache
Merci agrave tous ceux qui ont participeacute de pregraves ou de loin agrave laboutissement de ce travail
4
Sommaireacute
5
Sommaireacute
Introduction geacuteneacuterale 18
1 Problematique et motivation 19
2 CADRE ET BUTS DU TRAVAIL 23
3 Les pseudomonas 24
31 Caracteres geacuteneacutereaux 24
32 Pouvoir pathogegravene 26
33 Lutte biologique 27
4 Structure de document 28
Chapitre 1 Heacuteteacuterogeacuteneacuteiteacute et inteacutegration de donneacutees eacutetat de lrsquoart helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip30
1 Introduction 31
2 Eacutetat des sources 32
21 Varieacuteteacute des sources biologiques 33
22 Autonomie et capaciteacutes drsquointerrogation 35
3 Difficulteacutes rencontreacutees lors de lrsquointerrogation des sources 37
31 Diversiteacute syntaxique 37
32 Diversiteacute seacutemantique 38
33 Diversiteacute des langages de requecircte 39
34 Diversiteacute des services 39
4 Eleacutements de standardisation 40
41 Format standards et nomenclatures 40
42 Ontologies 41
43 Meacutetadonneacutees 42
44 Langages et formalismes 43
Chapitre 2 Approches drsquointeacutegration de donneacutees en bioinformatique 46
1 Introduction 47
2 points de variation entre les approches drsquointeacutegration 49
21 Degreacute drsquointeacutegration 49
211 Approche agrave couplage serreacute 49
6
212 Approche agrave couplage lacircche 50
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration 50
221 Modegravele de donneacutees du systegraveme drsquointeacutegration 50
222 Types drsquointeacutegrations seacutemantique 51
223 Approches ascendante et descendante 51
23 Mateacuterialisation des reacutesultats 52
24 Accegraves aux donneacutees 52
3 approches drsquointeacutegration en bioinformatique 52
31 Approche non mateacuterialiseacutee 53
311 Le systegraveme meacutediateur 53
312 Le systegraveme navigationnel 61
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees) 70
321 Deacutefinition et Architecture 70
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct 72
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel 74
324 Les modegraveles des entrepocircts de donneacutees 75
325 Adeacutequation Problegravemes rencontreacutes 81
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique 82
4 Discussion 86
Chapitre 3 Utilisation drsquoune approche hybride pour lrsquointeacutegration seacutemantique des donneacutees de
Pseudomonas sp 90
1 Introduction 91
2 Vue Global sur le systegraveme PseudomonasDW 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW 94
211 Bases de donneacutees geacutenomique et proteacuteique 95
212 Bases de donneacutees meacutetaboliques 96
213 Bases de donneacutees Enzymatique 97
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDW 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDW 101
31 Scheacutemas de source 101
32 Services de donneacutees 102
321 Architecture du service de donneacutees dans PseudmonasDW 103
7
322 Impleacutementation du service de donneacutees dans PseudmonasDW 104
33 Scheacutema Inteacutegrateur du PseudmonasDW 107
34 Correspondances seacutemantiques entre les scheacutemas 110
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web 113
36 SB-KOM System Biology Khaos Ontology-based Mediator 115
4 Processus ETL dans Pseudomonasdw 117
5 Discussion et conclusion 123
Chapitre 4 PseudomonasDW et PDWiki Une plateforme biologique pour les Pseudomonas Sp
126
1 Introduction 127
2 MODEacuteLISATION de PseudomonasDW 129
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW 129
22 Diagrammes de seacutequence du systegraveme PseudomonasDW 133
23 Diagramme de classes du systegraveme PseudomonasDW 135
3 IMPLEMENTATION DE PSEUDOMONASDW 135
31 Organisation des bases de donneacutees de PseudomonasDW 136
32 Impleacutementation des bases de donneacutees de PseudomonasDW 139
4 INTERFACE WEB DE PSEUDOMONASDW 141
41 Les Moteurs de rechercheacute dans PseudomonasDW 141
42 Les entreacutees de Pseudomonas DW 144
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW 147
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse) 147
511 GBrowse Vue geacuteneacuterale 149
512 Installation de GBrowse 149
513 Creacuteation et peuplement des bases de donneacutees MySQL 150
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW 153
521 Blast Vue geacuteneacuterale 153
522 La fonctionnaliteacute du Blast 154
6 PDWiki 157
61 Geacuteneacuteraliteacute sur les Wikis biologiques 158
62 PDWiki Infrastructure et contenue 159
63 Comment naviguer dans PDWiki 162
8
7 DISCUSSION 163
Conclusions et perspectives 165
1 Reacutesumeacute des contributions 168
2 Ouverture et pistes de recherche 172
Glossaire 174
Annexes 181
Bibliographie 188
Reacutefeacuterences Internet 197
9
INDEX DES FIGURES ET DES TABLES
FIGURES
Figure 1 Architecture dun systegraveme meacutediateur 54
Figure 2 Lapproche GAV (Global As View) 56
Figure 3 Lapproche LAV (Loacl As View) 56
Figure 4 Approche GLAV 57
Figure 5 Exemple de partage de reacutefeacuterences entre les sources 62
Figure 6 Graphe de liens entre les sources 63
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de 65
Figure 8 Exemple de graphe dentiteacutes (Niveau logique) 67
Figure 9 Architecture de BioGuide 69
Figure 10 Architecture dun entrepocirct de donneacutees 71
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees 72
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de
donneacutees 73
Figure 13 Exemple de cube de donneacutees 76
Figure 14 Modegravele en eacutetoile 78
Figure 15 modegravele en flocon 78
Figure 16 Modegravele en constellation 78
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing 80
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW 100
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA 102
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le
systegraveme PseudmonesDW 103
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web 105
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web 105
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement 106
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW 108
10
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre
conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux
relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes) 110
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et
les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA 111
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core 114
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et
lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM 115
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la
formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet
sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles
de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en
haut des eacuteleacutements de lontologie en rouge 118
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc
contient des informations pour acceacuteder aux services de donneacutees 119
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat
final de leacutetape ETL au sein de systegraveme PseudomonasDW 121
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction
de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de
chargement de donneacutees au sei de PseudmonasDW 122
Figure 33 Le diagramme de cas dutilisation de lutilisateur 131
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW 132
Figure 35 Le diagramme de cas dutilisation de ladministrateur 133
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur 134
Figure 37 Le diagramme conceptuel de PseudomonasDW 137
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A
gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW
A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas
aeruginosa PAO1 139
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees
au niveau de PseudomonasDW 140
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas 142
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne
la possibiliteacute de seacutelectionner lespegravece souhaiteacute 142
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de
seacutelectionner un champ speacutecifique de recherche 142
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute 143
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections
Organism et Gene de lentreacutee PAE00524 145
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse 151
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011 152
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW 154
11
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles
lutilisateur peut choisir 155
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences
indeacutependamment des bases de donneacutees de PseudomonasDW 155
Figure50 Exemple de reacutesultat de Blast 157
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir
et annoter lentreacutee PAE00524 de PseudomonasDW 161
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de
PDWiki et les relations entre ses pages et PseudomonasDW (PDW) 162
Figure 53 Architecture deXist copy Wolfgang Meier 187
TABLES
Table1 Comparaison des approches GAV LAV et GLAVhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 54
Table2 Les deux deacuteroulements possibleshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 60
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecirctehelliphelliphelliphelliphelliphelliphellip 117
Table4 La liste des acteurshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table5 les cas drsquoutilisation de lrsquoutilisateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
Table6 les cas drsquoutilisation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 130
Table7 les cas drsquoutilisation de lrsquoadministrateurhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 131
Table8 La liste des messages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de PseudomonsDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 140
12
ABREVIATION
13
ABREVIATION
ADN Acide Deacutesoxyribonucleacuteique
API Application Programming Interface
ASN Abstract Syntax Notation
BACIIS Biological And Chemical Information Integration System
BioGRID Biological General Repository for Interaction Datasets
BLAST Basic Local Alignment Search Tool
CGH Comparative genomic hybridization
ChEBI Chemical Entities of Biological Interest
CMR Comprehensive Microbial Resource
CPAN Reacuteseau Complet drsquoArchives Perl
CPL Collection Programming Language
CSS Cascading Style Sheets
CSUQ Computer System Usability Questionnaire
CYGD Comprehensive Yeast Genome Database
DAML DARPA Agent Markup Language
dbEST Expressed Sequences Tags databases
DDBJ DNA Data Bank of Japan
DTD Document Type Definition
EBI European Bioinformatics Institute
EcoCyc Encyclopedia of Escherichia coli
EMBL European Molecular Biology Laboratory
EMBO European Molecular Biology Laboratory
EPG Entity Path Generator
ETL Extraction transformation and loading
ExPASy (Expert Protein Analysis System
FTP File Transfer Protocol
GAM Generic Annotation Management
GAV Global As View
GDB Human Genome Databases
GEDAW Gene Expression DAta Warehouse
GenMapper Genetic Mapper
GEO Gene Expression Omnibus
GeWare Gene Expression Warehouse
14
GFF General Feature Format
GIMS Genome Information Management System
GLAV Generalized Local As View
GMOD Generic Modele Organisme Database project
GNU GNUs Not UNIX
GO Gene Ontology
GPL General Public License
GRAIL GALEN Representation and Integration Language
GUS Genomics Unified Schema
HGNC Human Gene Organisation
HGP Human Genome Project
HGP Human Genome Project
HTML HyperText Markup Language
HTTP Hypertext Transfer Protocol
IBM International Business Machines
ICARUS Interpreter of Commands And Recursive Syntax
IMG Integrated Microbial Genomes
INSDC Internatinal Nucleotide Sequence Database Collaboration
INSERM Institut National de la Santeacute et de la recherche meacutedicale
IRISA Institut de Recherche en Informatique et Systegravemes
Aleacuteatoires
JAXB Java Architecture for XML Binding
JAXP Java API for XML Processing
JDBC Java Database Connectivity
K2MDL K2 Mediator Definition Language
KEGG Kyoto Encyclopedia of Genes and Genomes
KOMF Khaos Ontology-based Mediation Framework
LAV Local As View
MCM Modegravele Conceptuel Multidimensionnel
MeSH Medical Subject Headings
MGD Mouse Genome Database
MGI Mouse Genome Informatics
MIPS Munich Information Center for Protein Sequences
MOLAP Multidimensionnal On Line Analytical Processing
NAR Nucleic Acids Research
NBRF National Biomedical Research Foundation
NCBI National Center for Biotechnology Information
15
NIH National Institutes of Health
NXD Native XML Database
OBO Open Biomedical Ontologies
ODL Object Definition Language
ODMG Object Data Management Group
OIL Ontology Inference Layer
OLAP On Line Analytical Processing
OLTP On Line Transactionnel Processing
OMG Object Management Group
OMIM Online Mendelian Inheritance in Man
OOLAP Object On-Line Analytical Processing
OQL Object Query Language
OWL Web Ontology Language
PDP Protein Data Bank
Pfam Protein Famili
PHP Hypertext Preprocessor
PIR Protein Identification Ressource
PPI Protein-Protein Interaction
PQL Program Query Language
PRODORIC PROcariotIC Database Of Gene-Regulation
QUIS Questionnaire for User Interface Satisfaction
RDF Resource Description Framework
RDFS Resource Description Framework Schema
ROLAP Relational On-Line Analytical Processing
SB-KOM System Biology Khaos Ontology-based Mediator
SEPT Source Entity Path Translator
SGBD Systegraveme de gestion de base de donneacutees
SGD Saccharomyces Genome Database
SKB Source Knowledge Base
SOAP Simple Object Access Protocol
SOFG Standards and Ontologies for Functional Genomics
SQL Structured Query Language
SRS Sequence Retrival System
SUS System Usability Scale
Tambis Transparent Access to Multiple Bioinformatic
InformationSources
TaO Tambis Ontology
16
UCL Universiteacute catholique de Louvain
UML Unified Modelling Language
UMLS Unified Medical Language System
UniProt Universal Protein Resource
URL Uniform Resource Locator
USA United States of America
W3C World Wide Web Consortium
WSDL Web Services Description Language
XML Extensible Markup Language
XSLT Extensible Stylesheet Language Transformations
ZFIN Zebrafish Information Network
17
NOTE AU LECTEUR
Dans la suite du document les termes marqueacutes par ⋆ seront deacutefinis dans le glossaire
18
INTRODUCTION GENERALE
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au domaineacute biologiqueacute
19
Introduction geacute neacute raleacute
Inteacute gration deacute donneacute eacutes sur leacute Weacuteb Etudeacute geacute neacute raleacute eacutet applications au
domaineacute biologiqueacute
Degraves les premiers jours de lrsquoegravere de la geacutenomique la quantiteacute de donneacutees a cru de maniegravere
exponentielle conduisant agrave une eacutemergence extraordinaire du nombre et du contenu des
sources de donneacutees Lrsquoouverture de ces sources sur Internet les a rendues disponibles au
plus grand nombre ouvrant ainsi de belles perspectives en recherche
La diffusion des sources sur le Web srsquoest faite de maniegravere indeacutependante en seacuteparant
les donneacutees par entiteacute biologique (ADN ARN Proteacuteine) par niveau drsquoorganisation
diffeacuterent (cellules tissus organe organisme espegravece) et par technologie diffeacuterente (analyse
du transcriptome du proteacuteome) Mais crsquoest la confrontation de toutes ces donneacutees
diverses eacutemanant de sources varieacutees et jusqursquoalors indeacutependantes qui va permettre de
reacutepondre agrave des questions biologiques complexes Lrsquoeffort consiste agrave inteacutegrer des donneacutees
heacuteteacuterogegravenes afin drsquoen extraire de nouvelles connaissances qui megravenent agrave la deacutecouverte
Donneacutees rarr Information rarr Connaissance rarr Deacutecouverte
La biologie prend ainsi une nouvelle dimension anciennement diviseacutee en plusieurs
disciplines elle devient inteacutegrative et offre de belles perspectives drsquoappreacutehension de la
complexiteacute du monde vivant (Blagosklonny and Pardee 2002)
Les pheacutenomegravenes biologiques sont complexes et neacutecessitent la confrontation de
diffeacuterentes donneacutees Ainsi la compreacutehension des pheacutenotypes normaux et pathologiques
implique une prise en compte de donneacutees expeacuterimentales de donneacutees geacutenomiques de
donneacutees issues des analyses bioinformatiques et de donneacutees de la litteacuterature
1 PROBLEMATIQUE ET MOTIVATION
Les pratiques concernant le stockage et la mise agrave disposition de donneacutees produites par les
laboratoires de recherche ont eacutevalueacute au cours du temps Au deacutebut du stockage informatiseacute
20
des donneacutees les reacutesultats produits eacutetaient sauvegardeacutes localement dans des bases de
donneacutees deacuteveloppeacutees et maintenues en interne destineacutees uniquement agrave un usage personnel
Lrsquoaccent eacutetait uniquement mis sur la sauvegarde rapide et fiable des reacutesultats
La prise en compte drsquoune ouverture future sur le monde (donc sur le Web) nrsquoeacutetant pas
envisageacutee les probleacutematiques des accegraves et des modifications concurrentes ainsi que la
documentation destineacutee agrave lrsquoutilisateur eacutetaient souvent laisseacutees de cocircteacute En absence de
consensus sur le modegravele de donneacutee agrave utiliser ou le langage de requecirctes destineacute agrave exploiter
les enregistrements les solutions individuelles se sont multiplieacutees formats binaires fichiers
plats bases de donneacutees relationnelles ou encore bases de donneacutees objets et natives XML
(Harold and Means 2004) Associeacutes agrave ces bases de donneacutees nous trouvons pecircle-mecircle les
langages Perl (Wall 2000) SQL (Lans 1989) OQL (Alashqur et al 1989) Xquery
(Katz et al 2003) ou simplement des adresses Web qui agrave base de couples cleacutefs-valeurs sont
parfois -trop souvent- le seul moyen drsquoextraire les informations qui inteacuteressent le chercheur
Cette faccedilon de proceacuteder nous a ameneacute agrave la situation que nous connaissons aujourdacutehui
avec des bases de donneacutees qui proposent certes souvent un format drsquoexportation commun
(XML par exemple) mais dont les scheacutemas sont heacuteteacuterogegravenes et les langages de requecirctes
incompatibles La syntaxe et la seacutemantique diffeacuterent drsquoune base agrave lrsquoautre ce qui oblige
lrsquoutilisateur agrave un apprentissage preacutealable multiple tant sur la signification des donneacutees
enregistreacutees et des opeacuterateurs que lrsquoon peut leur appliquer que sur la faccedilon drsquoy acceacuteder par
le biais de formulaires Web ou par une connexion directe au SGBD
De nos jours la masse formidable de donneacutees produites par les centres de recherche
atteint des quantiteacutes de plusieurs giga-octets par jour entreposeacutes dans une multitude de
systegravemes reacutepartis dans le monde entier agrave titre drsquoexemple la version 176 de GenBank1 (Feb
2010) occupe 463 giga-octets et la version 188 (Feb 2012) occupe 580 giga-octets Cette
accumulation drsquoinformations a engageacute la biologie dans une phase de transition drsquoune
science expeacuterimentale agrave une science de plus en plus orienteacutee par les donneacutees (Committee
2005)
Lrsquoenregistrement des seacutequences brutes de la cartographie des chromosomes des
donneacutees structurales ou deacutepression des gegravenes ont obligeacute agrave apporter une attention toute
particuliegravere aux sources de donneacutees qui les contiennent La connexion au Web ouvre ces
sources agrave un nombre drsquoutilisateurs potentiellement illimiteacute mecircme si en pratique il est rare
de deacutepasser le cap de plusieurs milliers de connexions simultaneacutees Cet eacutetat de fait oblige
leurs concepteurs agrave une reacuteflexion approfondie en amont afin drsquoeacuteviter lrsquoasphyxie rapide du
systegraveme causeacutee par la redondance des structures de donneacutees inadapteacutees ou une mauvaise
optimisation2 qui font srsquoeacutecrouler les performances lors drsquoun grand nombre drsquoaccegraves La
1 httpwwwncbinlmnihgovnuccore
2 La plupart des tables de la base Ensembl ont un index dont la taille deacutepasse celle des donneacutees elles-
mecircmes La rapiditeacute drsquoaccegraves a eacuteteacute privileacutegieacutee - sciemment et avec succegraves - au deacutetriment de lrsquoespace de stockage Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
21
majeure partie des sources baseacutees sur des technologies eacuteprouveacutees et robustes comme des
serveurs Oracle3 (Ault et al 2003) ou MySQL4 (Stephens and Russell 2004) (souvent
montreacutees en cluster) donc aptes agrave reacutepondre agrave une telle monteacutee en charge
Lrsquoun des principaux problegravemes auxquels sont confronteacutes les biologistes aujourdrsquohui ne
concerne donc plus la consultation individuelle drsquoune seule et unique source mais plutocirct
lrsquointeropeacuteration de plusieurs Nous ne consideacuterons dans la suite de cette introduction et la
preacutesentation de nos travaux que les sources de donneacutees qui correspondent aux critegraveres
deacutecrits chaque anneacutee dans le journal Nucleic Acid research (Galperin and Fernaacutendez-
Suaacuterez 2011) agrave savoir les banques de donneacutees ouvertes au public sans installation de
logiciels compleacutementaires et qui autorisent lrsquoexploration de contenu stockeacute sans
compensation financiegravere5
Une des probleacutematiques centrales des biologistes drsquoaujourdrsquohui consiste donc agrave
rassembler les donneacutees extraites de plusieurs de ces sources de faccedilon la plus automatiseacutee
possible Dans le cadre de nos travaux nous nous sommes inteacuteresseacutes uniquement aux
problegravemes poseacutes par lrsquointeacutegration de donneacutees que nous allons deacutetailler un peu plus loin
dans la suite de cette introduction Un bon moyen de se rendre compte des difficulteacutes
eacuteprouveacutees aujourdrsquohui pour la collecte de donneacutees consiste agrave srsquointeacuteresser agrave un sceacutenario
typique reacutesolu manuellement
Consideacuterons une question biologique simple agrave propos des reacuteactions enzymatiques et les
voies meacutetaboliques auxquelles participe le produit drsquoun gegravene donneacute drsquoune espegravece donneacutee
laquo Quelles sont les reacuteactions enzymatiques et les voies meacutetaboliques auxquelles participe
le produit du gegravene lsquoglpK1rsquo de lrsquoespegravece lsquoPseudomonas aeruginosa PA7 lsquo raquo
Une reacuteponse possible agrave cette question met en œuvre trois sources la premiegravere eacutetape
consiste de chercher le nom du produit du gegravene par exemple dans la base de donneacutees
Uniprot ( base de donneacutees proteacuteique) et agrave reporter ensuite le nom de la proteacuteine obtenu
dans le formulaire de recherche proposeacute par la base de donneacutees de BRENDA6 (par
exemple) pour chercher les reacuteactions enzymatiques et celui aussi de la base de donneacutees
KEGG7 pour chercher les voies meacutetaboliques Le croisement manuel des informations
fournies individuellement nous apporte donc un ensemble de reacutesultats qui ne constitue
qursquoune partie des reacuteponses possibles puisque drsquoautres sources disponibles sur le Web nous
auraient permis de reacutepondre agrave cette mecircme question Le travail demander pour ce faible
nombre de source est deacutejagrave fastidieux et prend des proportions qui deviennent difficile agrave
geacuterer agrave partir de cinq ou dix sources Des simplifications existent puisque des liens
hypertexte permettent souvent de basculer drsquoune source agrave lrsquoautre selon la valeur drsquoun 3 httpwwworaclecomindexhtml
4 httpwwwmysqlcom
5 Des restrictions drsquoaccegraves peuvent neacuteanmoins exister afin de nrsquoautoriser que certains types de requecirctes
6 httpwwwbrenda-enzymesinfo
7 httpwwwgenomejpkegg
22
paramegravetre crsquoest notamment le cas dans les bases de donneacutees les plus connues telles que
GenBank et Uniprot Drsquoun point de vue informatique ces hyperliens entre objets heacutebergeacutes
dans des sources distribueacutees permettent drsquoobtenir une jointure mais ces solution bien que
tregraves utiles pour collecter rapidement des donneacutees sont insuffisantes lrsquointervention
humaine reste preacutepondeacuterante de plus lrsquoexpressiviteacute de la requecircte est tregraves limiteacutee pour ne
pas dire inexistante
Comme nous venons de lrsquoeacutevoquer la diversiteacute des formats des interfaces des langages
de requecirctes rend lrsquointeacutegration de donneacutees (biologiques ou non) sur le Web difficile Des
solutions ont eacuteteacute proposeacutees pour la collecte centrales de donneacutees au travers drsquoune interface
unique soit en exploitant les liens entre sources (inteacutegration navigationnelle) soit dans le
cadre des approches drsquointeacutegration mateacuterialiseacutees (entrepocirct de donneacutees) ou virtuelles
(architecture de meacutediation)
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement les
donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour veacuterifier des
hypothegraveses ou bien reacutealiser des expeacuterimentations in silico Hammer et Schneider (Hammer J
and Schneider M 2003) vont jusqursquoagrave preacuteconiser la mise en place drsquoune seule et gigantesque
base de donneacutees biologiques Cette proposition srsquoapparente agrave de la science-fiction lrsquoespace
physique occupeacute serait trop important tant par les donneacutees que la conservation de leur
traccedilabiliteacute Et les phases de mises agrave jour occuperaient la majoriteacute du temps de
fonctionnement du systegraveme
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
23
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Les deux approches que nous venons drsquoeacutevoquer se rejoignent par le fait que dans
certains cas les instances du scheacutema deacutefini pour la meacutediation servent drsquoeacutetape de
transformation preacutealable au peuplement drsquoun entrepocirct de donneacutees
2 CADRE ET BUTS DU TRAVAIL
Les donneacutees biologiques reparties sur le Web sont nombreuses et de natures varieacutees Il
srsquoagit drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs distributions tissulaires leurs implications dans des fonctions
moleacuteculaires et des processus biologiques leurs implications cliniques leurs niveaux
drsquoexpression dans diffeacuterentes conditions physiopathologiques Ajoutons agrave cela leur
apparition croissante dans la litteacuterature scientifique
Un des deacutefis actuels de la bioinformatique est de fournir des moyens pour inteacutegrer cette
masse de donneacutees et de lrsquoexploiter de faccedilon automatique pour en extraire de nouvelles
connaissances Cette tacircche nrsquoest pas triviale et reacutevegravele de nombreuses difficulteacutes En effet
comme deacutemontreacute en partie introductive de ce manuscrit ces donneacutees sont reacuteparties sur le
Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si depuis
quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour ameacuteliorer
lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de mon travail de thegravese mon objectif a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee au contexte
drsquointeacutegration de donneacutees biologique de lrsquoespegravece de Pseudomonas Lrsquoenjeu eacutetait double
Inteacutegrer des informations allant du gegravene agrave la pathologie et reacuteconcilier ces
donneacutees afin drsquoavoir une vue unifieacutee des informations disponibles sur une
proteacuteine donneacutee
Fournir une plateforme complegravete permettant drsquoorienter la recherche par
extraction de nouvelles connaissances
La premiegravere contribution de notre travail est lrsquoutilisation drsquoune approche hybride (en
combinant les avantages de lrsquoapproche virtuelle et ceux de lrsquoapproche mateacuterialiseacutee) pour la
mise en place drsquoun systegraveme drsquointeacutegration semi-structureacute appliqueacute dans le domaine
biologique Ce travail a eacuteteacute reacutealiseacute dans le cadre drsquoune collaboration scientifique entre notre
24
groupe de recherche LABIPHABE et le groupe de recherche KHAOS de lrsquouniversiteacute de
Malaga
La deuxiegraveme contribution de ce travail est la creacuteation drsquoun entrepocirct de donneacutees
biologique nommeacute lsquoPseudomonsDWrsquo deacutedieacute aux espegraveces de Pseudomonas Lrsquoun des volets
drsquointeacuterecirct de notre groupe de recherche LABIPHABE est lrsquoeacutetude de ce fameux micro-
organisme La section suivante deacutecrit briegravevement cette espegravece Lrsquoentrepocirct de donneacutees
PseudomonasDW integravegre des donneacutees biologiques diverses (les gegravenes les proteacuteines les
enzymes les sites de restrictions les voies meacutetaboliqueshellip) Il est eacutetendu par un Wiki
scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de donner agrave la
communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des informations
relatives aux divers organismes et aux diffeacuterentes donneacutees inteacutegreacutees dans
PseudomonasDW
3 LES PSEUDOMONAS
31 Caracteres geacuteneacutereaux
Les bacteacuteries du genre Pseudomonas sont des bacilles agrave Gram neacutegatif (Eyquem et al
2005) mobiles par une ciliature polaire rarement immobiles non sporuleacutes
Ces bacteacuteries chimio-organotrophes ont un meacutetabolisme strictement respiratoire avec
comme accepteur terminal drsquoeacutelectrons lrsquooxygegravene en aeacuterobiose et pour certaines espegraveces le
nitrate en anaeacuterobiose avec synthegravese drsquoune nitrate-reacuteductase (respiration de nitrate) Elles
sont oxygegravene (+)
Les Pseudomonas sont caracteacuteriseacutes par la pluraliteacute des substrats hydocarboneacutes utiliseacutes
comme source de carbone et drsquoeacutenergie
Ces bacteacuteries sont tregraves reacutepandues dans la nature et caracteacuteriseacutees par leur reacutesistance aux
antibiotiques et aux antiseptiques
A) Morphologie et structure
Les Pseudomonas se preacutesentent sous la forme de bacirctonnets droits et fins 05 agrave 13 microm La
mobiliteacute est tregraves vive en aeacuterobiose La ciliature est polaire monotriche ndash multitriche Pour
les espegraveces multitriches le type de ciliature ne peut ecirctre eacutetabli que statistiquement en
deacuteterminant lrsquoIndes flagellaire Il peut varier selon les conditions de culture
25
B) Croissance et nutrition
De nombreuses espegraveces ou souches de Pseudomonas ne cultivent pas agrave 37degC alors que la
tempeacuterature de 30degC convient agrave tous pathogegravenes et saprophytes
La culture est facile sur milieu complexe avec ou sans production de pigment Ils sont
capables de cultiver sur des milieux mineacuteraux syntheacutetiques avec une source simple de
carbone aceacutetale pyruvate Ces proprieacuteteacutes sont utiliseacutees pour mettre en eacutevidence les
auxotrophies neacutecessaires pour lrsquoidentification (auxanogramme) par lrsquoeacutetude des substrats
carboneacutes utilisables comme source drsquoeacutenergie pour la croissance
C) Caractegraveres physiologiques
Ces bacteacuteries ont une longeacuteviteacute faible en culture mecircme agrave 4degC Tous les modes de
conservation possibles sont proposeacutes lyophilisation eau distilleacutee steacuterile avec une anse de
culture agrave tempeacuterature ordinaire de 18degC (Pseudomonas phytopathogegravenes) geacutelose molle
tube agrave vis comme pour les Enteacuterobacteacuteries congeacutelationhellip
D) Habita
Crsquoest une bacteacuterie ubiquiste qui vit normalement agrave lrsquoeacutetat de saprophyte dans lrsquoeau et le sol
humide ou sur les veacutegeacutetaux Elle reacutesiste mal agrave la dessiccation Cette bacteacuterie peut survivre et
se multiplier dans une infinie varieacuteteacute de liquides et de milieux de supports et de mateacuteriels
surtout srsquoils sont humides
E) Morphologie et caractegraveres culturaux
Bacille agrave Gram neacutegatif 1 agrave 3 microm de long 05 agrave 1 microm de large Il est parfois entoureacute drsquoune
pseudo-capsule appeleacutee slime qui peut jouer un rocircle important dans la pathogeacuteniciteacute de
cette bacteacuterie
Il peut ecirctre cultiveacute facilement sur tous les milieux en aeacuterobiose (tempeacuterature de 37degC
ou 30degC) Il deacutegage une odeur aromatique caracteacuteristique de Pseudomonas seringa due agrave la
production drsquoortho-amino-aceacutetopheacutenone intermeacutediaire du meacutetabolisme du tryptophane et
non lieacutee agrave la production de pigment Un milieu seacutelectif comme le milieu de Drigalski
convient pour la culture
F) Aspects de colonies
Ils sont particuliers agrave cette espegravece Une dissociation spontaneacutee en 3 types principaux peut
ecirctre observeacutee
Colonies LA (laquo large raquo) isoleacutees grandes avec une partie centrale bombeacutee et un
contour irreacutegulier Elles sont caracteacuteriseacutees par une autolyse qui donne un aspect
meacutetallique Iriseacute lors de la culture en nappe de la bacteacuterie Ce pheacutenomegravene est lieacute agrave
lrsquoaction des enzymes proteacuteolytiques bacteacuteriennes
Colonies SM (laquo small raquo) petites mates leacutegegraverement bombeacutees avec un bord
circulaire reacutegulier
26
Colonies M (muqueuse) bombeacutees opaques visqueuses parfois coulantes Ces
colonies se rencontrent presque speacutecifiquement dans des infections chroniques
urinaires ou pulmonaires (mucoviscidose) La bacteacuterie produit alors un
polysaccharide extracellulaire (lrsquoacide alginique) qui est diffeacuterent du laquo slime raquo
G) Production de pigments
Crsquoest lrsquoune des caracteacuteristiques de cette espegravece les pigments servent agrave son identification
Ils sont fluorescents ou non fluorescents
Pyoverdine
Pigment jaune-vert fluorescent soluble dans lrsquoeau insoluble dans le chloroforme mis en
eacutevidence dans le milieu de King B (phosphate sulfate glyceacuterol peptone) sa production est
inhibeacutee par les ions sodium et favoriseacutee dans les milieux carenceacutes en fer
Les Pseudomonas fluorescents se caracteacuterisent par la production de composeacutes
fluorescents jaune-vert qui sont les sideacuterophores de ces bacteacuteries Les Pseudomonas
aeruginosa produit en fait deux types de sideacuterophores la pyocheacuteline et 3 pyoverdines de
nature chromopeptidique (Pa PaA PaB) de structure tregraves voisine Ces pyoverdines et agrave un
moindre degreacute la pyocheacuteline sont excreacuteteacutees par la bacteacuterie et sont capable de cheacutelater le fer
et de le transporte
Pyocyanine
Pigment bleu soluble dans lrsquoeau et le chloroforme caracteacuteristique de P aeruginosa qui est la
seule espegravece agrave le produire La synthegravese de ce pigment est diminueacutee en preacutesence drsquoun excegraves
drsquoions phosphate et sodium Crsquoest un indicateur de pH en solution agrave pH 3 = rouge en
milieu neutre ou alcalin = bleu Il peut jouer le rocircle drsquoaccepteur terminal drsquoeacutelectrons si la
chaicircne respiratoire est inhibeacutee par exemple par lrsquoazide de Na
Il existe des souches de P aeruginosa apigmenteacutees moins de 5 des souches
sauvages ne produisent aucun de ces pigments Elles sont freacutequemment isoleacutees chez des
malades traiteacutes aux antibiotiques
Il faut noter que drsquoautre Pseudomonas et apparenteacutes produisent des pigments souvent
de couleur jaune notamment des espegraveces phytopathogegravenes et il convient drsquoen faire le
diagnostic diffeacuterentiel p fluorescens P putida P aureofaciens P chlororaphis P
lemonieri P stutzeri et P mendocina
32 Pouvoir pathogegravene
Chez lhomme lespegravece Pseudomonas aeruginosa intervient freacutequemment comme
pathogegravene opportuniste Elle se retrouve en flore de transit sur la peau et les muqueuses et
27
cause des surinfections de plaies ou brucirclures Chez des individus immunodeacutepressifs elle
peut ecirctre la cause de diverses infections cutaneacutees et visceacuterales voire de septiceacutemie Elle
comporte un risque particuliegraverement eacuteleveacute dinfections nosocomiales (contracteacutees par
lintermeacutediaire de soins en milieu hospitalier) notamment avec des souches reacutesistantes agrave
certains antibiotiques courants
Chez les plantes Pseudomonas syringae est un pathogegravene prolifique Elle semble
laquo opportuniste raquo Elle infecte des plantes deacutejagrave affaiblie par la pollution un stress hydrique
de mauvaises conditions de plantation une autre maladie des blessures un systegraveme
racinaire contraint ou asphyxieacute
Il existe de nombreuses autres espegraveces de Pseudomonas qui peuvent agir comme
agents pathogegravenes des plantes notamment tous les autres membres du sous-groupe de
Pseudomonas syringae mais Pseudomonas syringae est la plus reacutepandue et la mieux
eacutetudieacutee
33 Lutte biologique
De nombreuses souches de Pseudomonas jouent un rocircle majeur dans les processus de
biodeacutegradation Dans les processus de remeacutediation et traitement de sites pollueacutes la
biodeacutegradation ou peut ecirctre favoriseacutee ou acceacuteleacutereacutee par des apports en nutriments ou par
des souches bacteacuteriennes seacutelectionnneacutees Cest le cas par exemple pour les pollutions du sol
ou de leau par du fuel ou du peacutetrole brut Dans ce cas un ensemencement par des souches
mixtes de Pseudomonas et de Rhodococcus et se sont montreacutees plus efficaces pour
deacutegrader le fuel en milieu aquatique Dans ce dernier cas on na pas reacuteussi a ameacuteliorer les
performances des bacteacuteries en portant lassociation agrave trois quatre ou cinq souches dautres
bacteacuteries
Dans le sol les Pseudomonas repreacutesentent une grande fraction de la communauteacute
microbienne partageant leur milieu avec des commensaux repreacutesentant principalement les
genres Bacillus et Actinomyces On les retrouve sous tous les horizons particuliegraverement
sur les systegravemes racinaires des plantes Les diffeacuterentes espegraveces de Pseudomonas qui
colonisent la rhizosphegravere possegravedent plusieurs caracteacuteristiques intrinsegraveques qui les rendent
particuliegraverement inteacuteressantes pour une utilisation comme agents de lutte biologique
Premiegraverement leur capaciteacute agrave coloniser les racines et agrave y maintenir une forte densiteacute de
population est remarquable (Haas and Keel 2003) Cette grande rhizocompeacutetence vient
sans doute de leur taux de croissance plus eacuteleveacute que celui de la plupart des autres
rhizobacteacuteries et de leur capaciteacute agrave meacutetaboliser efficacement plusieurs composants des
exsudats racinaires (Chin-A-Woeng et al 2000) De plus ces bacteacuteries sont tregraves faciles agrave
isoler et agrave cultiver au laboratoire et se precirctent aiseacutement aux manipulations geacuteneacutetiques (Chin-
A-Woeng et al 2001)
28
Les Pseudomonas principalement lrsquoespegravece Pseudomonas fluorescens sont connues
depuis longtemps pour leur aptitude agrave reacuteduire lrsquoincidence des maladies racinaires dans
certains champs ainsi qursquoagrave inhiber la croissance drsquoun grand nombre drsquoagents
phytopathogegravenes in vitro Cette capaciteacute drsquoinhibition peut se faire selon plusieurs
meacutecanismes incluant la production drsquoune large gamme de meacutetabolites antagonistes et de
sideacuterophores Ces derniers permettent de compeacutetitionner farouchement pour lrsquoacquisition
du fer Dans un milieu comme le sol ougrave cet eacuteleacutement est preacutesent en tregraves faible quantiteacute cela
peut nuire agrave la croissance de plusieurs agents pathogegravenes et ainsi reacuteduire la seacuteveacuteriteacute de la
maladie
4 STRUCTURE DE DOCUMENT
Dans le premier chapitre de cette thegravese nous preacutesentons et nous mettons en eacutevidence les
diffeacuterentes caracteacuteristiques des sources de donneacutees biologiques Ce chapitre comporte une
description des divers niveaux drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources
Le deuxiegraveme chapitre dresse un eacutetat de lrsquoart qui illustre chacune des solutions
majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme navigationnel) et
montre comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Le chapitre trois introduise notre solution hybride et preacutesente les diffeacuterentes eacutetapes de
la mise en place drsquoun nouveau systegraveme drsquointeacutegration concernant les donneacutees biologiques
des espegraveces de Pseudomonas Ce chapitre deacutecrive lrsquooutil ETL (Thomas and Stefan 2008)
qui permet lrsquoextraction la transformation et le stockage de donneacutees agrave partir des sources de
donneacutees originales jusqursquoagrave PseudomonasDW
Le chapitre quatre de cette thegravese preacutesente une nouvelle base de donneacutees pour les
espegraveces de Pseudomonas Ce chapitre comporte en outre une section qui deacutecrive les
phases de lrsquoimpleacutementation de notre base de donneacutees et lrsquointerface utilisateur qui permet
aux utilisateurs drsquoacceacuteder aux donneacutees de PseudomonasDW Dans ce chapitre nous
deacutetaillons aussi le processus drsquointeacutegration de quelques outils bioinformatique dans
PseudomonasDW et de deacuteveloppement du wiki scientifique qui permit agrave lrsquoutilisateur
drsquoeacutediter drsquoajouter et drsquoannoter les donneacutees inteacutegreacutees dans PseudomonasDW
Enfin nous concluons le travail en ouvrant des perspectives sur nos travaux de futurs
29
Preacutemieacute reacute Partieacute
30
CHAPITRE 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
31
Chapitre 1
Heacute teacute rogeacute neacute iteacute eacutet inteacute gration deacute donneacute eacutes eacute tat deacute lrsquoart
Sommaire
1 Introduction helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 31
2 Etat des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 32
21 Varieacuteteacute des sources biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 33
22 Autonomie et capaciteacutes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 35
3 difficulteacutes rencontreacutees lors de lrsquointeacutegration des sourceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
31 Diversiteacute syntaxiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 37
32 Diversiteacute seacutemantiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 38
33 Diversiteacute des langages de requecirctehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
34 Diversiteacute des serviceshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 39
4 Eacuteleacutements de standardisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
41 Format standards et nomenclatureshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 40
42 Ontologieshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 41
43 Meacutetadonneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 42
44 Langages et formalismeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 43
1 INTRODUCTION
Ce chapitre est deacutedieacute agrave la preacutesentation des sources de donneacutees biologiques Notre objectif
est de mettre en eacutevidence les particulariteacutes de ces sources et de motiver le besoin de
solutions drsquointeacutegration adapteacutees agrave ces types de donneacutees
Les premiegraveres sources de seacutequences biologiques sont apparues dans les anneacutees 80
sous lrsquoinitiative de quelques eacutequipes comme celle du Professeur Grantham agrave Lyon (Gautier
1981) Avec les eacutevolutions techniques du seacutequenccedilage la gestion des donneacutees a neacutecessiteacute
une organisation plus conseacutequente Ainsi plusieurs organismes ont pris en charge la mise
en place de systegravemes de stockage des donneacutees
32
En Europe une eacutequipe financeacutee par lrsquoEMBO8 a deacuteveloppeacute une source de
seacutequences nucleacuteiques lrsquoEMBL data library (Hamm and Cameron 1986) Du cocircteacute
ameacutericain soutenue par le NIH9 la source nucleacuteique GenBank a eacuteteacute creacuteeacutee agrave Los Alamos
(Bilofsky and Christian 1988) Cette source eacutetait agrave lrsquoorigine une base de donneacutees
relationnelle puis fut diffuseacutee sous la forme de fichiers plats par le NCBI10 La collaboration
entre les concepteurs drsquoEMBL et de GenBank a commenceacute relativement tocirct Elle srsquoest
eacutetendue en 1987 avec la participation de la DDBJ11 (Dna Data Bank) du Japon pour
proposer en 1990 un format unique de description des caracteacuteristiques biologiques qui
accompagnent les seacutequences dans les sources de donneacutees nucleacuteiques
Pour les proteacuteines deux sources principales ont rapidement eacuteteacute creacuteeacutees La premiegravere
sous lrsquoinfluence du NBRF agrave Washington est PIR Protein Identification Ressource
(Sidman et al 1988) La deuxiegraveme SwissProt a eacuteteacute deacuteveloppeacutee agrave lrsquoUniversiteacute de Genegraveve
degraves 1986
2 EacuteTAT DES SOURCES
Durant ces 20 derniegraveres anneacutees les sources de donneacutees biologiques disponibles sur le Web
eacutetaient multiplieacutees Leur croissance est en tregraves forte progression depuis 10 ans La lsquoDatabases
Issuersquo de la revue Nucleic Acids Research (NAR) qui liste chaque anneacutee les sources les plus
importantes du Web recense plus de 1380 sources publiques en 2012 (Galperin and
Fernaacutendez-Suaacuterez 2012) Ces sources eacutetaient environ 1330 en 2011 et un peu moins de
1230 en 2010 En lrsquoespace de 2 ans plus de 150 sources de donneacutees publiques ont donc vu
le jour
On peut proposer trois eacuteleacutements drsquoexplication agrave ce pheacutenomegravene Drsquoabord depuis les
dix derniegraveres anneacutees les projets de seacutequenccedilage eacutetaient extrecircmement deacuteveloppeacutes Chacun de
ces projets a pour but de seacutequencer un geacutenome il conccediloit et deacuteveloppe alors sa propre
source de donneacutees pour mettre ses reacutesultats agrave la disposition de tout le monde Citons le
Human Genome Project (HGP) deacutebuteacute en 1990 et le Mouse Genome Database (MGD)
quelques anneacutees plus tard comme exemples de projets drsquoannotation ayant mis en ligne
leurs reacutesultats En parallegravele de nouvelles techniques drsquoanalyse biologique agrave haut deacutebit ont
vu le jour comme les puces agrave ADN et plus reacutecemment les puces agrave proteacuteines ou les puces
agrave CGH Ces nouvelles techniques ont geacuteneacutereacute de nouveaux types de donneacutees qui ont eacuteteacute
stockeacutes dans de nouvelles sources Ainsi les sources GEO12 et ArrayExpress13 ont eacuteteacute
8 httpwwwemboorg
9 httpwwwnihgov
10 httpwwwncbinlmnihgov
11 httpwwwddbjnigacjp
12 httpwwwncbinlmnihgovgeo
13 httpwwwebiacukarrayexpress
33
creacuteeacutees pour contenir des donneacutees de puces agrave ADN (microarray) La troisiegraveme cause est le
deacuteveloppement drsquooutils bioinformatiques Les donneacutees sont aujourdrsquohui reacuteguliegraverement
analyseacutees et compareacutees agrave lrsquoaide drsquooutils de recherche de similariteacutes de seacutequence (Blast14)
drsquoalignements multiples ou encore de deacutetection de gegravenes dans les seacutequencesetc Les
reacutesultats obtenus par ces outils sont eux aussi stockeacutes dans de nouvelles sources de
donneacutees Par exemple la source Pfam15 contient des donneacutees-reacutesultats drsquoalignements
multiples
La sous-section suivante dresse un rapide panorama drsquoun certain nombre de
sources de donneacutees que lrsquoon peut trouver aujourdrsquohui sur le Web
21 Varieacuteteacute des sources biologiques
Il nrsquoexiste agrave lrsquoheure actuelle aucune classification suivie des sources de donneacutees La
classification proposeacutee dans la revue NAR nrsquoest par exemple pas la mecircme drsquoune anneacutee agrave
lrsquoautre (les cateacutegories changent) et regroupe les sources en fonction du type de donneacutees
qursquoelles contiennent (seacutequences) ou de lrsquoespegravece concerneacutee Agrave travers la (tregraves simple)
classification ci-dessous nous ne cherchons pas ecirctre exhaustifs ni agrave proposer des classes
(de sources) disjointes mais simplement agrave donner un aperccedilu des familles de sources de
donneacutees biologiques publiques Nous nous sommes inspireacutes de la revue NAR et des
travaux de Carole Goble (Goble 2002) Nous consideacutererons donc les familles de sources
suivantes
Les sources regroupant un ensemble drsquoabstracts de publications scientifiques du
domaine meacutedical Medline16 PubMed17
Les sources de donneacutees primaires Ces sources sont les plus volumineuses Il en
existe essentiellement pour deux types de donneacutees agrave lrsquoheure actuelle (i) les
seacutequences geacutenomiques et (ii) les donneacutees de puces agrave ADN Les sources GenBank
(USA) EMBL (Europe) et DDBJ (Japon) sont des deacutepocircts de seacutequences qui
contiennent toutes les trois les mecircmes donneacutees et sont mises agrave jour toutes les nuits
les unes par rapport aux autres Pour les donneacutees de puces agrave ADN les deacutepocircts de
donneacutees sont ArrayExpress (Europe) et GEO (USA)
Le rocircle drsquoun deacutepocirct est de contenir de faccedilon exhaustive lrsquoensemble des donneacutees
disponibles (sur les seacutequences ou les donneacutees de puce agrave ADN) Plus preacuteciseacutement
chaque nouvelle seacutequence (ou nouvelle expeacuterience de puce agrave ADN) deacutecouverte par
14
httpblastncbinlmnihgovBlastcgi 15
httppfamsangeracuk 16
httpwwwmedlinecom 17
httpwwwncbinlmnihgovpubmed
34
un laboratoire doit ecirctre envoyeacutee agrave GenBankEMBLDDBJ (ou
GEOArrayExpress) dans un certain format Toute publication scientifique
soumise agrave une revue en biologie au sujet drsquoun seacutequenccedilage (ou drsquoune expeacuterience de
puce agrave ADN) doit ecirctre associeacutee agrave un ou plusieurs numeacuteros drsquoidentification
GenBankEMBLDDBJ (respectivement GEOArrayExpress)
Les donneacutees qui sont preacutesentes dans ces bases sont donc brutes au sens ougrave elles ne
sont pas valideacutees par les proprieacutetaires des sources Il arrive mecircme que des
seacutequences soient dupliqueacutees par erreur de manipulation des chercheurs lors de la
soumission
Les sources de donneacutees secondaires Contrairement aux preacuteceacutedentes ces
sources contiennent des informations nettoyeacutees (au moins automatiquement
comme la suppression de doublons) et parfois mecircme valideacutees manuellement par
des experts Ces sources sont dites secondaires car lrsquoobjectif de leurs proprieacutetaires
est de partir de donneacutees issues des sources primaires pour proposer des
informations plus syntheacutetiques et le cas eacutecheacuteant ajouter des informations
compleacutementaires
Pour les donneacutees geacutenomiques les sources RefSeq18 et UniGene19 du NCBI20 sont
deux exemples de sources secondaires qui proposent de regrouper les fiches
GenBank La premiegravere propose une version non redondante de GenBank elle est
obtenue en utilisant des techniques de regroupement semi-automatiques alors que
la seconde construit de faccedilon automatique des clusters de seacutequences
Les sources de donneacutees drsquoexpertises Ces sources contiennent essentiellement
du texte et proposent des fichiers contenant une analyse et une synthegravese drsquoun
ensemble drsquoarticles scientifiques Par exemple la source OMIM21 fournit un
ensemble drsquoinformations sur les maladies humaines sous la forme de fichiers dans
lesquelles des experts (de lrsquouniversiteacute Johns Hopkins aux USA) commentent les
reacutesultats associeacutes agrave un gegravene ou un groupe de gegravenes deacutecrits dans un ensemble de
publications et associeacutes agrave un pheacutenotype (une maladie) donneacute
Les sources de donneacutees-reacutesultats drsquooutils On retrouve beaucoup de ces sources
au niveau du recensement des domaines fonctionnels Pfam ProDom22 Genopage
(Cohen-Boulakia et al 2002) Ces sources ont des contenus geacuteneacutereacutes
automatiquement qui reacutesultent de lrsquoutilisation drsquoune succession preacutecise drsquooutils
bioinformatiques Elles sont ensuite valideacutees ou non par des experts Ces sources
18
httpwwwncbinlmnihgovRefSeq 19
httpwwwncbinlmnihgovunigene 20
httpwwwncbinlmnihgov 21
httpwwwomimorg 22
httpprodomprabifrprodomcurrenthtmlhomephp
35
sont aussi caracteacuteriseacutees par le fait qursquoelles offrent des outils de visualisation des
reacutesultats qui permettent de comparer et drsquoanalyser les informations ainsi geacuteneacutereacutees
Les sources qui offrent un degreacute eacuteleveacute de preacutecision sur une famille de donneacutees
sur une famille de fonctions biologiques Par exemple la source BRENDA
est deacutedieacutee agrave la description des proteacuteines dont la fonction est enzymatique
sur une espegravece particuliegravere ou une famille drsquoespegraveces comme les sources
FlyBase23 (deacutedieacutee agrave la drosophile) et Saccharomyces Genome Database
SGD24 (deacutedieacutee agrave la levure)
Enfin on distinguera les sources syntheacutetiques qui proposent un ensemble de
fichiers de synthegravese Chacune de ces fichiers regroupe des informations preacutesentes
dans drsquoautres sources associeacutees agrave un mecircme gegravene ou une mecircme proteacuteine On trouve
dans cette cateacutegorie GeneCards25 (Rebhan et al 1997) qui fournit des fichiers de
synthegravese proposant des liens hypertextes vers des informations relatives aux gegravenes
humains qui proviennent drsquoune vingtaine de sources de donneacutees (dont UniProt
(Consortium 2010) GenBank)
22 Autonomie et capaciteacutes drsquointerrogation
La majoriteacute des sources disponibles sur internet fonctionnent en mode totalement
autonome Autrement dit les administrateurs et curateurs de ces sources sont tout agrave fait
libres de modifier leur scheacutema ou de mettre agrave jour leur contenu (ces sources fonctionnent
souvent sur le principe de mises agrave jour reacuteguliegraveres comme UniProt par exemple) sans en
faire eacutetat preacutealablement aux utilisateurs Aucune source ne tient compte des eacuteventuelles
reacutefeacuterences dont elle est lrsquoobjet or en inteacutegration de donneacutees lrsquoindisponibiliteacute drsquoune source
pendant sa maintenance va influer plus ou moins fortement sur la qualiteacute et la compleacutetude
du reacutesultat drsquoune requecircte problegraveme qursquoun outil drsquointeacutegration de donneacutees du Web doit
prendre en compte et reacutesoudre ou tout au moins signaler agrave lrsquoutilisateur La seule solution
afin drsquoavoir en permanence les donneacutees inteacutegreacutees les plus agrave jour est drsquoacceacuteder agrave celles-ci
lors de lrsquoexeacutecution des requecirctes
Un facteur drsquoinconsistance suppleacutementaire des sources de donneacutees orienteacutees Web
est leur grande deacutependance vis-agrave-vis du reacuteseau Les performances des transferts sur internet
eacutetant impreacutevisibles nrsquoimporte quel systegraveme drsquointeacutegration qui accegravede agrave des donneacutees du Web heacuterite de
cette impreacutevisionrdquocomme lrsquoont souligneacute Jagadish et Olken (Jagadish and Olken 2003) Les
accegraves aux donneacutees peuvent ecirctre effectueacutes via un navigateur HTTP ou un logiciel client
23
httpflybaseorg 24
httpwwwyeastgenomeorg 25
httpwwwgenecardsorg
36
FTP par connexion directe sur la base de donneacutees (client deacutedieacute ou JDBC (Reese 2001) par
exemple) ou plus reacutecemment encore via des appels de services Web Concernant les
interfaces homme-machine chaque source propose ses propres fonctionnaliteacutes ce qui
suppose et impose agrave lrsquoutilisateur une phase drsquoapprentissage pour chacune des interfaces
qursquoil devra utiliser
Des restrictions drsquoaccegraves existent sur les sources et certaines requecirctes ne peuvent
tout simplement pas ecirctre exeacutecuteacutees Ces limitations empecircchent dans certains cas
lrsquoextraction drsquoinformations pertinentes mecircme si les donneacutees pour y reacutepondre sont
disponibles (Sujansky 2001) Les motivations de ces choix srsquoexpliquent
soit par la volonteacute drsquoassurer une qualiteacute de service identique agrave tous les utilisateurs il
nrsquoest donc pas envisageable qursquoun seul drsquoentre eux mobilise des heures durant la
puissance de calcul drsquoune source par une requecircte trop complexe
soit pour des raisons de droits de copie des donneacutees lrsquoextraction massive
drsquoinformations est alors limiteacutee volontairement par les proprieacutetaires de la source
Souvent les langages de requecirctes proposeacutes nrsquoen sont pas reacuteellement le systegraveme
drsquointerrogation est constitueacute uniquement drsquoun index de taille plus ou moins importante et
via des formulaires accessibles dans des pages HTML va chercher dans une ou plusieurs
sources les valeurs associeacutees aux attributs choisis Des langages de plus haut niveau plus
expressifs sont eacutegalement utiliseacutes tels que SQL ou OQL
Lrsquointeacutegration ne doit drsquoailleurs pas simplement concerner les donneacutees brutes mais
aussi permettre lrsquoutilisation de ressources biologiques telles que Blast(Altschul et al 1990)
ou Fasta26 (Lipman and Pearson 1985)
Lrsquoautonomie des sources les unes par rapport aux autres lrsquoheacuteteacuterogeacuteneacuteiteacute de leurs
repreacutesentations mais aussi les interfaces drsquoaccegraves diffeacuterentes et aux capaciteacutes drsquointerrogation
ineacutegales rendent difficile voire impossible leur utilisation combineacutee par des biologistes Les
proceacutedures permettant de collecter les donneacutees doivent autant que possible ecirctre
automatiseacutees et crsquoest cette tacircche qui eacutechoit au systegraveme drsquointeacutegration avec plus ou moins de
faciliteacute en fonction de lrsquoapproche suivie
26
httpwwwebiacukToolssssfasta
37
3 DIFFICULTES RENCONTREES LORS DE
LrsquoINTERROGATION DES SOURCES
Le nombre de sources de donneacutees et drsquooutils mis agrave la disposition des biologistes sur le Web
nrsquoa cesseacute de croicirctre ces derniegraveres anneacutees Cette augmentation colossale de la masse de
donneacutees disponibles a geacuteneacutereacute une grande varieacuteteacute drsquointerfaces drsquoaccegraves mais aussi et surtout
une profonde heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique Jusqursquoagrave preacutesent les recoupements
effectueacutes par les biologistes entre plusieurs sources de donneacutees eacutetaient reacutealiseacutes agrave la main au
cas par cas Les interrogations des sources devaient se faire une agrave une puis dans lrsquoensemble
de reacutesultats obtenus il fallait faire la part des redondances et des compleacutementariteacutes ainsi
que des eacuteventuelles inconsistances Deacutesormais la compreacutehension des processus globaux
des pheacutenomegravenes vitaux doit faire appel agrave une automatisation des traitements
En eacutevoluant indeacutependamment les sources ont adopteacute chacune leur propre modegravele
de donneacutees leur langage de requecirctes et leur format drsquoexportation que la litteacuterature a
deacutetailleacute agrave de nombreuses reprises (Davidson et al 1995 Hernandez and Kambhampati
2004 Olken and Jagadish 2003) La reacutesolution de ces conflits est lrsquoobjectif de nombreuses
approches qui diffegraverent par les meacutethodes et les moyens qursquoelles mettent en œuvre La
taxonomie des conflits peut ecirctre deacutefinie suivant quatre grandes dimensions de variation
mais celles-ci ne sont pas speacutecifiques et limiteacutees au domaine biologique puisque des
probleacutematiques similaires se retrouvent eacutegalement en geacuteographie par exemple (Aerts et al
2006 Bishr 1998) Nous allons eacutenumeacuterer ici les quatre proprieacuteteacutes des sources biologiques
qui rendent leur interrogation complexe et fastidieuse
31 Diversiteacute syntaxique
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique est causeacutee par les diffeacuterences entre plateformes logicielles et les
formats qursquoelles manipulent Des informations identiques peuvent donc ecirctre enregistreacutees
soit en utilisant des notations formelles telles qursquoASN 1027 ou Fasta (Lipman and Pearson
1985) soit du XML du HTML ou des SGBD relationnels ou objets
Lrsquoutilisation de fichiers plats est le standard de facto ce qui neacutecessite une phase
drsquoextraction de donneacutees afin de retrouver la structure des donneacutees originelles Le
deacuteveloppement du langage XML et des technologies qui y sont lieacutees (notamment autour du
langage Java avec par exemple les API JAXP (Griffith 2005) et JAXB (McLaughlin
2002)) permet de plus en plus de simplifier les eacutechanges de donneacutees biologiques (Achard et
al 2001) Lrsquointerpreacutetation de lrsquoinformation inteacutegreacutee reste malgreacute tout un problegraveme crucial agrave
reacutesoudre
27
httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
38
32 Diversiteacute seacutemantique
Diversiteacute des scheacutemas Dans cette partie nous allons exposer des problegravemes qui
sont plus propres aux donneacutees biologiques que ceux listeacutes ci-dessus
Diversiteacute des focus Chaque source se focalise sur un type drsquoobjet une
entiteacute biologique Dans UniProt les donneacutees sont focaliseacutees sur la proteacuteine
qui est lrsquoentiteacute centrale toute entreacute de UniProt deacutecrit une proteacuteine Le gegravene
codant pour chaque proteacuteine est alors vu comme un simple attribut Au
contraire dans GenBank la seacutequence nucleacuteotidique est lrsquoentiteacute centrale et
crsquoest la proteacuteine qui en est un attribut Lrsquoentiteacute centrale peut aussi ecirctre le
domaine fonctionnel (dans InterPro28) ou la structure 3D drsquoune proteacuteine
(dans PDB29)
Diversiteacute du niveau de granulariteacute selon les sources une mecircme donneacutee
nrsquoest pas repreacutesenteacutee avec le mecircme niveau de granulariteacute de deacutetail Par
exemple UniProt propose des informations sur des proteacuteines issues de
diffeacuterentes espegraveces Elles sont preacutecises mais geacuteneacuteralistes au sens ougrave elles
ne sont pas cibleacutees sur une famille particuliegravere de donneacutees Au contraire
chez SGD on pourra connaicirctre de faccedilon speacutecifique la fonction de chacune
des proteacuteines de la levure
Diversiteacute dans la deacutefinition biologique drsquoune entiteacute Selon les sources une
mecircme entiteacute biologique (gegravene proteacuteine ) est deacutefinie diffeacuteremment Par
exemple selon les sources une proteacuteine est une isoforme particuliegravere
(GenBank) ou bien la seacutequence associeacutee agrave lrsquoensemble des isoformes
(UniProt) On a le mecircme problegraveme au niveau de la deacutefinition drsquoun gegravene qui
peut varier consideacuteration de la seacutequence codante (apregraves eacutepissage) ou
incluant les introns
La diversiteacute des sources de donneacutees permet au biologiste drsquoacceacuteder agrave des informations compleacutementaires mais
qui peuvent ecirctre tregraves redondantes selon la source une mecircme information peut ecirctre repreacutesenteacutee avec des
modegraveles des formats et des scheacutemas diffeacuterents
Diversiteacute des informations au niveau des instances
Diffeacuterents points de vue sur les donneacutees Chaque annotateur exprime son
expertise agrave travers une fiche Il peut arriver que selon les sources une
mecircme proteacuteine soit associeacutee agrave des fonctions diffeacuterentes
Diffeacuterents vocabulaires pour annoter les seacutequences Le degreacute de confiance
associeacute aux annotations nrsquoest pas souvent donneacute dans les sources et il est
peu homogegravene au sein mecircme drsquoune source voire agrave lrsquointeacuterieur drsquoune eacutequipe
drsquoannotateurs Certains annotateurs emploieront le terme de putative 28
httpwwwebiacukinterpro 29
httpwwwrcsborgpdbhomehomedo
39
pour exprimer que lrsquoannotation nrsquoest pas sucircre tandis que drsquoautres utiliseront
le terme hypothetical Drsquoautres encore ne preacuteciseront rien
Diffeacuterents noms pour un gegravene ou une proteacuteine il existe tregraves souvent
plusieurs noms (synonymes) pour un mecircme gegravene ou pour une mecircme
proteacuteine et ce agrave lrsquointeacuterieur drsquoune mecircme source mais aussi agrave travers les
sources et les espegraveces Il est donc courant qursquoun gegravene ou une proteacuteine ait
plusieurs noms De mecircme il est possible que deux proteacuteines ou deux gegravenes
diffeacuterents aient le mecircme nom ou un nom en commun on est dans ce cas
en preacutesence drsquohomonymie
Lrsquoinformation preacutesente dans les sources au niveau des instances est donc compleacutementaire mais elle peut aussi
ecirctre divergente Les homonymies peuvent conduire agrave de fausses divergences alors que les diffeacuterents points de
vue drsquoexperts peuvent refleacuteter de reacuteels deacutesaccords Face agrave des informations divergentes le biologiste privileacutegie
les informations issues de la source en laquelle il a le plus confiance (notons que cette confiance est variable
puisqursquoelle peut deacutependre du domaine de recherche voire de lrsquoexpeacuterience qursquoa un biologiste de lrsquoutilisation de
la source) Il est donc primordial que le biologiste sache de quelles sources proviennent les donneacutees
33 Diversiteacute des langages de requecircte
Il deacutecoule de la sous-section 31 que les sources ont des langages de requecirctes diffeacuterents Le
langage drsquointerrogation drsquoune banque de donneacutees (comme PubMedMedline GenBank)
est souvent une simple combinaison de mots agrave chercher dans les textes tandis que les bases
de donneacutees relationnelles par exemple peuvent ecirctre interrogeacutees en SQL (crsquoest le cas pour la
source ensEMBL30) Certains projets drsquoentrepocircts orienteacutes-objet (comme GEDAW (Gueacuterin
et al 2005) ou GIMS (Cornell et al 2003)) offrent la possibiliteacute de poser des requecirctes
OQL sur leur scheacutema
34 Diversiteacute des services
Les sources proposent des outils capables de rechercher certaines proprieacuteteacutes des donneacutees
(le plus souvent ces outils servent agrave renvoyer les donneacutees drsquoune source qui sont similaires agrave
une donneacutee expeacuterimentale preacutesenteacutee en entreacutee) Une forte diversiteacute est preacutesente agrave travers
ces outils chaque source possegravede une ou plusieurs variantes drsquoun mecircme outil en outre
lrsquoutilisateur dispose tregraves rarement drsquoune description complegravete de lrsquooutil qursquoil manipule Par
exemple dans le cas drsquoun Blast il existe des variantes de lrsquoalgorithme consideacuterant des
heuristiques diffeacuterentes ou tout simplement des algorithmes adapteacutes agrave des types de
30
httpwwwensemblorgindexhtml
40
donneacutees diffeacuterents (seacutequences drsquoacides amineacutes comme BlastP ou de seacutequences
nucleacuteotidiques comme BlastN)
4 ELEMENTS DE STANDARDISATION
Dans la mise en place drsquoeacuteleacutements de standardisation trois types de solutions ont eacuteteacute
proposeacutes Le premier est relatif agrave la modeacutelisation du contenu des sources choix des noms
des concepts sous-jacents aux donneacutees des sources et des noms des relations entre
ces concepts Cette tacircche ne peut se faire qursquoagrave travers de nombreuses discussions entre
experts ce type de solution est donc speacutecifique agrave chaque domaine de connaissance Le
second type de solution est plus geacuteneacuterique il comprend la construction de cadres de
repreacutesentation et drsquoeacutechange des concepts et de leurs relations ainsi que
lrsquoeacutelaboration de meacutethodes pour faire correspondre des ensembles structureacutes de
concepts deacuteveloppeacutes dans des contextes diffeacuterents Enfin un troisiegraveme type de
solutions a eacuteteacute proposeacute il vise agrave ajouter des informations agrave propos des donneacutees
contenues dans les sources on parle alors du deacuteveloppement de meacutetadonneacutees
41 Format standards et nomenclatures
Un premier eacuteleacutement de solution pour lrsquointeacutegration des donneacutees est lrsquoeacutetablissement de
terminologies standards pour deacutecrire les donneacutees
Dans le domaine biologique plusieurs consortiums se sont formeacutes en vue drsquoeacutetablir
des terminologies pour deacutecrire les donneacutees preacutesentes dans les sources et des hieacuterarchies
pour classifier les concepts sous-jacents agrave ces terminologies Depuis quelques anneacutees un
workshop Standards and Ontologies for Functional Genomics (SOFG) a lieu
annuellement et regroupe les principaux acteurs sur cette probleacutematique
Le souci de standardisation de lrsquoattribution de noms est pris en compte par le
consortium HGNC31 (Human gene organisation (HUGO) Gene Nomenclature
Committee) qui propose une terminologie particuliegravere pour les nouvelles seacutequences
31
httpwwwgenenamesorg
41
42 Ontologies
Le besoin de capturer les notions biologiques preacutesentes agrave travers le Web et de traiter de
faccedilon automatique des annotations geacuteneacuteralement eacutecrites en langage naturel a conduit agrave la
construction de nombreuses ontologies
Le concept drsquoontologie est employeacute dans des domaines tregraves diffeacuterents tels que la
philosophie la linguistique ou lrsquointelligence artificielle Lrsquoune des premiegraveres deacutefinitions
informatiques de cette notion comme celle de Gruber (Gruber 1995) est speacutecification drsquoune
conceptualisation Outre le sens philosophique originel une ontologie deacutesigne donc le plus
souvent un ensemble structureacute de concepts Agrave la diffeacuterence drsquoun vocabulaire une ontologie
cherche agrave repreacutesenter le sens des concepts et des relations qui les lient Une ontologie a
donc deux composantes (i) un ensemble de concepts et (ii) un langage pour structurer ces
concepts
Nous donnons ci-dessous un aperccedilu des ontologies deacuteveloppeacutees dans le domaine
biologique
Tout drsquoabord citons le projet GO32 (Gene Ontology) (Ashburner et al 2000) qui
vise agrave fournir un ensemble structureacute de vocabulaires pour des domaines biologiques
speacutecifiques permettant de deacutecrire des produits de gegravenes (proteacuteines ou ARNs) dans un
organisme eucaryote donneacute GO est composeacutee de trois ontologies respectivement
consacreacutees aux fonctions moleacuteculaires aux processus biologiques et aux composants
cellulaires Il est agrave noter que GO est aujourdrsquohui tregraves couramment utiliseacutee par la
communauteacute des biologistes qui travaillent sur des organismes eucaryotes Drsquoautres
ontologies plus speacutecifiques sont utiliseacutees pour les procaryotes Crsquoest le cas de lrsquoontologie
MIPS (Mewes et al 2002) ou lrsquoontologie SubtiLis (Moszer et al 2002)
Beaucoup drsquoautres ontologies ont eacuteteacute deacuteveloppeacutees le projet OBO33 (Open
Biomedical Ontologies) (Xuan et al 2009) liste notamment lrsquoensemble des ontologies en
ligne dont voici un extrait
Pour modeacuteliser des organismes des ontologies sur lrsquoanatomie drsquoespegraveces
particuliegraveres ont eacuteteacute proposeacutees comme MGI34 (Mouse Genome Informatics) du
Jackson Laboratory Flybase du Flybase Consortium ou encore ZFIN35 (Zebrafish
Information Network) du groupe Zebrafish Dans la communauteacute biomeacutedicale on
distinguera lrsquoUMLS36 (Unified Medical Language System) un meacuteta-thesaurus pour
32
httpwwwgeneontologyorg 33
httpwwwobofoundryorg 34
httpwwwinformaticsjaxorg 35
httpzfinorg 36
httpwwwnlmnihgovresearchumls
42
les concepts manipuleacutes en meacutedecine ou encore le MeSH37 (Medical Subject
Headings) qui contient essentiellement des termes pour lrsquoanatomie humaine
Au niveau des voies meacutetaboliques la source de donneacutees KEGG (Kanehisa et al
2004) a deacuteveloppeacute sa propre ontologie On trouve aussi EcoCyc38 et MetaCyc39
(Karp et al 2000) de P Karp et ChEBI40 (Brooksbank et al 2005) un
dictionnaire pour les entiteacutes chimiques et une ontologie associeacutee deacuteveloppeacutes agrave
lrsquoEBI41
Pour repreacutesenter les structures des composants du ribosome RiboWeb42 (Chen et
al 1997) propose un format de donneacutees une nomenclature et un cadre XML
(RNA-ML) (Waugh et al 2002)
Neacuteanmoins ces ontologies mecircme dans un domaine fixeacute (par exemple en anatomie)
nrsquoont pas les mecircmes structures de donneacutees sous-jacentes Ainsi les anatomies dans ZFIN
et MGI sont repreacutesenteacutees par une structure drsquoarbres alors que dans FlyBase les ontologies
se preacutesentent sous la forme de graphes non cycliques
43 Meacutetadonneacutees
Il nrsquoexiste pas de deacutefinition consensuelle sur ce qursquoest une meacutetadonneacutee hormis le fait qursquoil
srsquoagit drsquoune information de niveau supeacuterieur sur des donneacutees ou de toute donneacutee associeacutee agrave
une ressource permettant de deacutecrire sous divers aspects cette ressource Une meacutetadonneacutee
permet de donner du sens au contenu des ressources de maniegravere agrave ce que leurs localisation
et interrogation soient plus aiseacutees et plus pertinentes On peut citer de nombreux exemples
de meacutetadonneacutees
lrsquoauteur de la ressource sa date de creacuteation sa date de derniegravere modification
des commentaires exprimant un point de vue sur la ressource
le scheacutema des donneacutees les index associeacutes
des informations de qualiteacute relatives au scheacutema de la ressource
des informations statistiques sur les donneacutees
la speacutecification la signature drsquoun programme
37
httpwwwnlmnihgovmesh 38
httpecocycorg 39
httpmetacycorg 40
httpwwwebiacukchebi 41
httpwwwebiacuk 42
httphelix-webstanfordeduribowebhtml
43
Pour structurer et donner un sens aux meacutetadonneacutees plusieurs normes ont eacuteteacute
proposeacutees Malgreacute leurs diffeacuterences leur objectif est drsquouniformiser la maniegravere drsquoeffectuer la
description des ressources et donc drsquoameacuteliorer leur eacutechange et leur partage De maniegravere
geacuteneacuterale les normes proposent un guide de structuration des meacutetadonneacutees neacutecessaires agrave la
description drsquoune ressource Les meacutetadonneacutees sont preacutesenteacutees sous forme drsquoeacuteleacutements
(sections ou rubriques) lesquels peuvent selon leur seacutemantique ecirctre regroupeacutes en
cateacutegories
Par exemple la norme Dublin Core43 propose 15 eacuteleacutements de description
(meacutetadonneacutees) drsquoune ressource organiseacutes en trois cateacutegories concernant
le contenu de la ressource titre sujet ou codes de classement description
source langue relation avec une autre ressource couverture spatiale et temporelle
la proprieacuteteacute intellectuelle creacuteateur eacutediteur collaborateur droits drsquoutilisation
la mateacuterialisation de la ressource cycle de vie type format identificateur
44 Langages et formalismes
Afin de repreacutesenter et drsquoagencer les donneacutees des langages et formalismes se sont
deacuteveloppeacutes Les plus freacutequemment utiliseacutes aujourdrsquohui sont
XML (eXtensible Markup Language) a eacuteteacute mis au point en 1996 sous lrsquoeacutegide du
W3C44 (World Wide Web Consortium) Crsquoest un langage structureacute de repreacutesentation de
donneacutees pour un document Plus preacuteciseacutement crsquoest un meacutetalangage permettant de rendre
explicite la structure des donneacutees pour participer agrave lrsquointeropeacuterabiliteacute entre des donneacutees ou
des applications
Un document XML est composeacute drsquoun prologue et drsquoun corps Le prologue drsquoun
document XML regroupe les meacutetadonneacutees portant sur le document On y trouve en
particulier la version drsquoXML mais aussi eacuteventuellement une repreacutesentation formelle de la
grammaire du document sous forme directe ou par reacutefeacuterence agrave un fichier externe Les deux
formats de repreacutesentation de grammaire aujourdrsquohui utiliseacutes sont les DTD (Document
Type Definition) qui ont une syntaxe propre et les scheacutemas dont la syntaxe est exprimeacutee
en XML
Le corps drsquoun document XML est constitueacute drsquoune imbrication de balises deacutelimitant les
eacuteleacutements Par exemple ltProtein_Namegt Alkane 1-monooxygenase 1ltProtein_Namegt
43
httpdublincoreorg 44
httpwwww3org
44
De plus un eacuteleacutement peut avoir des attributs qui sont utiliseacutes pour repreacutesenter agrave la fois
des proprieacuteteacutes et des relations Cela permet de passer drsquoune structure hieacuterarchique
drsquoeacuteleacutements agrave une structure en graphe
Un document XML dont la syntaxe est conforme aux principes preacuteceacutedents est un
document bien formeacute De plus si la structure de ses eacuteleacutements est conforme agrave la grammaire
deacutefinie ou reacutefeacuterenceacutee dans le prologue le document est dit valide
XML est donc bien adapteacute pour deacutecrire explicitement la structure drsquoun document il
assure une interopeacuterabiliteacute syntaxique Il faut donc se tourner vers des surcouches de XML
crsquoest-agrave-dire des eacuteleacutements agrave la structure et au sens bien deacutefinis pour repreacutesenter la dimension
seacutemantique
RDF45 (Resource Description Framework) est un autre standard proposeacute par le W3C
pour la description des sources sur le Web Les descriptions se font en exprimant des
proprieacuteteacutes et en leur attribuant des valeurs Les scheacutemas RDF noteacutes RDFS46 servent agrave
deacutefinir les termes et les relations qui interviennent dans ces descriptions
RDF a pour but de faciliter pour une communauteacute drsquoutilisateurs lrsquoeacutechange des
meacutetadonneacutees pour des ressources Web partageacutees et de permettre le traitement de ces
meacutetadonneacutees par des opeacuterateurs humains ou par des machines (proposant des meacutecanismes
de raisonnement automatique) RDF est en effet lrsquoun des modegraveles de base sur lesquels le
Web seacutemantique se construit Le Web seacutemantique a pour objectif agrave plus long terme
drsquooffrir la possibiliteacute de deacutevelopper un systegraveme drsquoagents logiciels capables de raisonner en
acceacutedant agrave des ressources varieacutees Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre
une infrastructure dans laquelle lrsquointeacutegration des informations de sources multiples peut
ecirctre reacutealiseacutee et faciliteacutee
Le pouvoir seacutemantique de RDF se limite agrave la repreacutesentation de la structure de ces
concepts sans parvenir agrave rendre compte du sens qursquoils veacutehiculent Ceci est le rocircle des
ontologies
OWL47 (Web Ontology Language) (Lacot 2005) est le standard actuellement proposeacute
par le W3C pour repreacutesenter les ontologies Il a eacuteteacute creacuteeacute pour ecirctre utiliseacute par les
applications cherchant agrave traiter le contenu de lrsquoinformation et non plus uniquement agrave
preacutesenter lrsquoinformation OWL se veut plus repreacutesentatif du contenu du Web que XML
RDF et RDF-Scheacutema en apportant un nouveau vocabulaire avec une seacutemantique formelle
OWL ajoute du vocabulaire pour deacutecrire les proprieacuteteacutes et classes comme par exemple la
disjonction de classe la cardinaliteacute (exactement un) lrsquoeacutegaliteacute les types de proprieacuteteacutes plus
riches les caracteacuteristiques de proprieacuteteacute (symeacutetrie transitiviteacute hellip) et les classes eacutenumeacutereacutees
45
httpwwww3orgTRrdf-concepts 46
httpwwww3orgTRrdf-schema 47
httpwwww3orgTR2009WD-owl2-primer-20090611
45
OWL est deacuteclineacute en trois sous langages drsquoexpressiviteacute croissante OWL lite OWL DL
OWL Full OWL Lite est fait pour des besoins preacuteliminaires permettant de deacutefinir une
hieacuterarchie et des contraintes simples Il permet de deacutefinir facilement des theacutesaurus ou
taxonomies OWL DL et Full reposent sur OWL Lite auquel sont ajouteacutes des
constructeurs suppleacutementaires OWL DL supporte des besoins drsquoexpressiviteacute maximaux
tout en garantissant une compleacutetude de calculs et de deacutecidabiliteacute neacutecessaires aux systegravemes
de raisonnement Il repose sur les eacuteleacutements OWL auxquels il associe un grand nombre de
restrictions (par exemple une classe peut ecirctre une sous-classe de nombreuses autres classes
mais pas une instance drsquoune classe) OWL DL est conccedilu pour pouvoir supporter la logique
de description Cette logique appartient agrave un domaine de recherche qui a pour but drsquoaider
au raisonnement sur une base de connaissances OWL Full permet un maximum
drsquoexpressiviteacute avec la liberteacute de syntaxe drsquoRDF Il nrsquoimpose pas de seacuteparation entre classe
proprieacuteteacute individu et valeur des donneacutees Il permet donc drsquoaugmenter le sens du
vocabulaire preacutedeacutefini (en OWL ou RDF) Il legraveve les contraintes imposeacutees par OWL DL
pour rendre certaines valeurs disponibles et utilisables dans des bases de donneacutees ou de
connaissances mais il ne supporte pas les raisonnements lieacutes agrave la logique de description
46
CHAPITRE 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
47
Chapitre 2
Approcheacutes drsquointeacute gration deacute donneacute eacutes eacuten bioinformatiqueacute
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 47
2 Points de variation entre les approches drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49 21 Degreacute drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 49
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegrationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 50
23 Mateacuterialisation des reacutesultatshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
24 Accegraves aux donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
3 Approches drsquointeacutegration en Bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 52
31 Approche non mateacuterialiseacuteehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 53
32 Approche mateacuterialiseacutee (entrepocirct de donneacutees)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 70
4 Discussion sur les approches drsquointeacutegration en bioinformatiquehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 86
1 INTRODUCTION
Depuis que la navigation manuelle au sein des sources ne suffit plus agrave reacutesoudre les
questions complexes que se posent aujourdrsquohui par les biologistes de nombreuses solutions
au problegraveme de lrsquointeacutegration des sources de donneacutees ont eacuteteacute proposeacutees Des systegravemes
drsquointeacutegration ont eacuteteacute deacuteveloppeacutes pour fournir un accegraves unique via une mecircme interface agrave
plusieurs sources de donneacutees tout en palliant au problegraveme de leur heacuteteacuterogeacuteneacuteiteacute Ces
systegravemes suivent diffeacuterentes approches qui varient sur diffeacuterents points(Hernandez and
Kambhampati 2004)
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformations ont alors eacuteteacute
proposeacutees les approches bases de donneacutees feacutedeacutereacutees entrepocirct et meacutediateur
48
Dans lrsquoapproches bases de donneacutees feacutedeacutereacutees les sources sont indeacutependantes les unes des
autres et des connections entre toutes les paires de sources que lrsquoon souhaite faire
communiquer sont eacutetablies Cette approche est tregraves simple mais tregraves coucircteuse puisque
permettre agrave n sources de communiquer chacune avec n-1 sources implique donc drsquoeacutecrire
n(n-1) ensembles de connections entre les sources pour supporter les requecirctes entre les
systegravemes (Sheth and Larson 1990)
Lrsquoapproche entrepocirct consiste agrave voir cette inteacutegration comme la construction drsquoune
base de donneacutees reacuteelles appeleacutee entrepocirct regroupant les informations pertinentes pour les
applications consideacutereacutees Lrsquoutilisateur pose alors ses requecirctes ou lance un traitement
directement sur les donneacutees stockeacutees dans lrsquoentrepocirct (Inmon 1996)
Lrsquoapproche meacutediateur (Wiederhold 1992) consiste agrave fonder lrsquointeacutegration
drsquoinformations sur lrsquoexploitation de vues abstraites deacutecrivant le contenu des diffeacuterentes
sources drsquoinformation Les donneacutees ne sont pas stockeacutees au niveau du meacutediateur et ne sont
accessibles qursquoau niveau des sources drsquoinformation Lrsquointeacutegration et la deacutetermination des
sources drsquoinformation pertinentes neacutecessitent (le plus souvent) la construction de plans de
requecirctes dont lrsquoexeacutecution permettra drsquoobtenir lrsquoensemble des reacuteponses agrave partir des sources
disponibles
Les approches meacutediatrice et entrepocirct de donneacutees demeurent aujourdrsquohui tregraves
reacutepondues Ces ainsi qursquoune grande partie des solutions informatiques pour les donneacutees
biologiques srsquoest naturellement orienteacutee vers ces deux architectures Drsquoautres architectures
comme les portails ou les plateformes ne cherchant pas (seulement) agrave inteacutegrer les donneacutees
mais plutocirct agrave faire interopeacuterer les sources (en utilisant des outils) se sont deacuteveloppeacutees dans
le mecircme temps
Dans ce chapitre nous allons commencer par preacutesenter les points de variation entre
les diffeacuterentes approches drsquointeacutegration puis nous exposerons lrsquoapproche virtuelle suivie de
lrsquoapproche mateacuterialiseacutee en discutant lrsquoadeacutequation de chaque solution drsquointeacutegration pour les
donneacutees biologiques Dans le cadre de Davidson (Davidson et al 1995) ces approches
sont classeacutees comme inteacutegrant lsquofortementrsquo les donneacutees Nous verrons neacuteanmoins que la
lsquoforcersquo drsquointeacutegration de ces approches peut varier selon les communauteacutes
Notre objectif est de montrer la diversiteacute des approches existantes sans chercher agrave
ecirctre exhaustifs
49
2 POINTS DE VARIATION ENTRE LES APPROCHES
DrsquoINTEGRATION
On distingue les diffeacuterentes approches drsquointeacutegration selon plusieurs critegraveres que sont (1) le
degreacute drsquointeacutegration (2) la meacutethodologie de construction du systegraveme drsquointeacutegration (3) la
mateacuterialisation des reacutesultats de lrsquointeacutegration et (4) les points drsquoaccegraves aux donneacutees (Balko et
al 2004)
Le degreacute drsquointeacutegration est deacutecrit comme eacutetant serreacute ou lacircche Un systegraveme est dit
lsquoagrave couplage serreacutersquo si tous les scheacutemas des sources de donneacutees inteacutegreacutees sont transformeacutes en
un modegravele de donneacutees commun avec le deacuteveloppement drsquoun scheacutema global Un systegraveme
est consideacutereacute comme eacutetant lsquoagrave couplage lacircchersquo si un mappage dans un modegravele commun a
eacuteteacute effectueacute sans exigence drsquoaucun scheacutema global La meacutethodologie de construire un
systegraveme drsquointeacutegration deacutepend agrave plusieurs points le modegravele de donneacutees utiliseacute les types
drsquointeacutegration seacutemantique pris en compte et les meacutethodes de construction suivies La
mateacuterialisation des reacutesultats distingue des solutions mateacuterialiseacutees et autres baseacutees sur les
vues Les points drsquoaccegraves aux donneacutees caracteacuterisent la maniegravere drsquoexpression de requecirctes
envoyeacutees au systegraveme
21 Degreacute drsquointeacutegration
Principalement il y a deux grandes approches pour lrsquointeacutegration de donneacutees communeacutement
appeleacutees lsquoapproche agrave couplage serreacute et approche agrave couplage lacircchersquo Selon la premiegravere
approche lrsquointeacutegration des donneacutees se reacutealise par le deacuteveloppement drsquoun scheacutema
inteacutegrateur contrairement agrave la deuxiegraveme approche qui ne fournit aucun scheacutema Lrsquoapproche
agrave couplage lacircche exige un langage de requecircte unique pour interroger le contenu des sources
de donneacutees Ainsi lrsquoapproche agrave couplage serreacute offre un scheacutema un langage et une
transparence drsquointerface
211 Approche agrave couplage serreacute
Dans le cas de lrsquoapproche agrave couplage serreacute qui est souvent mis en œuvre par le biais de
lrsquoentrepocirct de donneacutees les donneacutees sont extraites agrave partir de sources disperseacutes dans un seul
emplacement physique en fournissant un scheacutema unifieacute (scheacutema inteacutegrateur) Ce scheacutema
peut couvrir lrsquoensemble des donneacutees des sources ou uniquement une partie mais doit
conserver la seacutemantique des sources de donneacutees pour ensuite permettre la pertinence des
requecirctes Pour assurer lrsquoeacutequivalence seacutemantique avec les sources de donneacutees et le systegraveme
drsquointeacutegration il faut eacutetablir des correspondances entre le scheacutema inteacutegrateur et les scheacutemas
50
des sources Ces correspondances peuvent ecirctre exprimeacutees par des ontologies ou des
deacutefinitions de regravegles (voir la sous-section 3213)
Lrsquoapproche agrave couplage serreacute a lrsquoavantage drsquoeacuteviter agrave lrsquoutilisateur de devoir connaicirctre
tous les scheacutemas des sources mais plutocirct drsquoavoir une connaissance unique du scheacutema
inteacutegrateur
212 Approche agrave couplage lacircche
Dans lrsquoapproche agrave couplage lacircche aucun scheacutema nrsquoest neacutecessaire pour lrsquointerrogation du
systegraveme Lrsquoapproche fournit un langage de requecircte uniforme qui masque lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources de donneacutees ougrave lrsquoutilisateur gegravere cette heacuteteacuterogeacuteneacuteiteacute via ses requecirctes Pour faciliter
lrsquoaccegraves aux donneacutees ce type de systegraveme fournit geacuteneacuteralement des vues inteacutegreacutees Les
utilisateurs peuvent en effets deacutefinir des vues sur certaines donneacutees qui peuvent ensuite ecirctre
accessibles pour des requecirctes
Le principal critegravere pour discerner les deux approches crsquoest la visibiliteacute ou non pour
les utilisateurs des scheacutemas de sources Dans lrsquoapproche agrave couplage serreacute les scheacutemas de
sources ne sont jamais visibles contrairement agrave lrsquoapproche agrave couplage lacircche ougrave les scheacutemas
sont toujours visibles
22 Meacutethodologie de deacuteveloppement des systegravemes drsquointeacutegration
Lrsquointeacutegration seacutemantique de donneacutees regroupe les processus par lesquels les donneacutees
provenant de diffeacuterentes sources drsquoinformation sont deacuteplaceacutees combineacutees et consolideacutees
Dans ce contexte le Web seacutemantique doit drsquoabord ecirctre une infrastructure dans laquelle
lrsquointeacutegration des informations drsquoune varieacuteteacute de sources peut ecirctre reacutealiseacutee et faciliteacutee Le Web
seacutemantique devrait donc suivre des meacutethodes de deacuteveloppement pour la reacutealisation drsquoune
telle infrastructure
221 Modegravele de donneacutees du systegraveme drsquointeacutegration
Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun modegravele de donneacutees Le
modegravele de donneacutees est le scheacutema global inteacutegrateur (une DTD un scheacutema XML un
scheacutema relationnelhellip) dans le cas drsquoune inteacutegration agrave couplage serreacute Il vise agrave convertir les
donneacutees des sources en termes de donneacutees dans ce scheacutema global inteacutegrateur Dans le cas
drsquoune inteacutegration lacircche le modegravele de donneacutees se base sur le langage de requecircte utiliseacute pour
acceacuteder aux sources de donneacutees
51
222 Types drsquointeacutegrations seacutemantique
Certains systegravemes integravegrent des sources de donneacutees compleacutementaires ne preacutesentant pas
drsquoobjets eacutequivalents et exportent donc certaines parties des scheacutemas de celles-ci Drsquoautres
systegravemes au contraire integravegrent des sources de donneacutees ayant des contenus chevauchants
Une agreacutegation drsquoinformation est alors requise pour identifier des objets eacutequivalents drsquoun
point de vue seacutemantique crsquoest-agrave-dire deacutecrivant le mecircme concept Lrsquointeacutegration seacutemantique
comporte alors agrave son tour deux niveaux drsquointeacutegrations (diffeacuteremment qualifieacutes selon les
communauteacutes) inteacutegration au niveau des instances et inteacutegration au niveau du scheacutema ou inteacutegration
verticale et horizontale dans la communauteacute biologique (Hernandez and Kambhampati
2004 Walter 2001)) ou encore inteacutegration extensionnelle et intensionnelle (dans la
communauteacute informatique)
Lrsquointeacutegration au niveau du scheacutema vise agrave inteacutegrer les donneacutees en creacuteant une
correspondance entre le scheacutema de chaque source de donneacutees et celui du systegraveme
drsquointeacutegration
Lrsquointeacutegration au niveau des instances vise agrave inteacutegrer les donneacutees en identifiant la
preacutesence de mecircmes objets dans les sources de donneacutees Ougrave on distingue diffeacuterents niveaux
drsquointeacutegration seacutemantique selon que les donneacutees sont (1) collecteacutees sans aucune recherche
drsquoeacutequivalence parmi les objets issus des diffeacuterents sources ou (2) fusionneacutees afin drsquoidentifier
des objets provenant de sources diffeacuterentes mais eacutequivalents drsquoun point de vue seacutemantique
ou (3) suppleacutementeacutees si les donneacutees suppleacutementaires agrave celles deacutejagrave inteacutegreacutees viennent deacutecrire
le contenu ou la seacutemantique des donneacutees deacutejagrave inteacutegreacutees on parle alors de meacutetadonneacutees
seacutemantique
223 Approches ascendante et descendante
Il existe plusieurs approches pour mettre en place un systegraveme drsquointeacutegration Par contre
seulement deux approches sont communes (Sen and Sinha 2005) Il srsquoagit de lrsquoapproche
lsquotop-downrsquo procircneacutee par Inmon (Inmon 2002) et lrsquoapproche lsquoBottom-uprsquo de Kimball (Kimball
2002)
Lrsquoapproche descendante lsquotop-downrsquo est composeacutee de trois eacutetapes la collecte des
besoins des utilisateurs la speacutecification et la formalisation de ces besoins suivant un modegravele
de donneacutees en constellation qui integravegre lrsquoexpression de contraintes seacutemantiques Dans
lrsquoapproche descendante les donneacutees des sources ne sont pas prises en compte car ces
meacutethodes considegraverent que lrsquoobjectif drsquoun modegravele de donneacutees est de reacutepondre aux besoins
des utilisateurs Elle se base uniquement sur la speacutecification de ces besoins pour deacutefinir les
sujets et les axes de lrsquoanalyse en neacutegligeant la structure et le contenu des sources agrave partir
desquelles les donneacutees deacutecisionnelles sont extraites
52
Lrsquoapproche ascendante lsquoBottom-uprsquo fondeacutee sur les donneacutees ougrave elle collecte les
donneacutees agrave partir des sources de donneacutees en se basant sur les scheacutemas de sources ensuit elle
construit un modegravele de donneacutees pour lrsquoaide agrave la deacutecision suivant un processus semi-
automatique Autrement dit La meacutethode ascendante utilise les sources de donneacutees pour
deacutefinir les besoins des utilisateurs et pour concevoir le scheacutema du systegraveme Cette meacutethode
considegravere que les informations pertinentes pour la prise de deacutecision se trouvent dans la
source (List et al 2002)
23 Mateacuterialisation des reacutesultats
Certains systegravemes suivent une approche virtuelle ou non mateacuterialiseacutee Lrsquoapproche virtuelle
deacutesigne une vision globale par lrsquointermeacutediaire drsquoun unique scheacutema de repreacutesentation de
lrsquoensemble des diffeacuterentes sources de donneacutees heacuteteacuterogegravenes Ce scheacutema global peut ecirctre
deacutefini automatiquement agrave lrsquoaide drsquooutils ou extracteurs de scheacutema Dans cette approche
virtuelle les requecirctes utilisateurs sont formuleacutees selon la seacutemantique du scheacutema global
extrait Lrsquoexeacutecution de ces requecirctes neacutecessite une traduction de celles- ci en sous-requecirctes
adapteacutees agrave chacun des sous-scheacutemas des diffeacuterentes sources de donneacutees
Certains systegravemes au contraire suivent une approche mateacuterialiseacutee Dans cette
approche les donneacutees issues de sources heacuteteacuterogegravenes sont stockeacutees localement Ce
stockage permet agrave lrsquoutilisateur final drsquoavoir un accegraves unique et transparent agrave toutes les
donneacutees heacuteteacuterogegravenes Lrsquoapproche mateacuterialiseacutee repose sur une copie des donneacutees dans un
entrepocirct ainsi les actions sur le reacutefeacuterentiel sont asynchrones par rapport aux sources de
donneacutees La propagation des modifications apporteacutees au reacutefeacuterentiel vers les diffeacuterentes
sources de donneacutees doit passer par des proceacutedures de mises agrave jour
24 Accegraves aux donneacutees
Un utilisateur accegravede aux donneacutees du systegraveme drsquointeacutegration selon diffeacuterentes meacutethodes
pouvant ecirctre soit un langage de requecircte de type SQL ou OQL soit par le biais de la
navigation speacutecialement dans les systegravemes baseacutees sur le Web
3 APPROCHES DrsquoINTEGRATION EN BIOINFORMATIQUE
Depuis quelques anneacutees de nombreuses solutions au problegraveme de lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources biologiques et agrave leur inteacutegration ont eacuteteacute proposeacutees Comme nous avons deacutejagrave citeacute
dans la section 23 certains systegravemes suivent une approche lsquonon mateacuterialiseacuteersquo ou une
53
approche lsquovirtuellersquo dans laquelle les donneacutees restent au niveau des sources de donneacutees
Lrsquoapproche virtuelle inclue lrsquoapproche de meacutediation et lrsquoapproche navigationnelle Drsquoautres
suivent une approche lsquomateacuterialiseacuteersquo dans laquelle les donneacutees sont extraites des diffeacuterentes
sources et combineacutees dans un scheacutema global
31 Approche non mateacuterialiseacutee
Dans lrsquoapproche lsquonon mateacuterialiseacuteersquo on distingue tout drsquoabord des portails dans lesquels
sont regroupeacutes au sein drsquoun mecircme site Web lrsquoaccegraves agrave diverses banques Ainsi les banques
de donneacutees du NCBI sont actuellement toutes accessibles par le portail Entrez48 De mecircme
ExPASy49 (Expert Protein Analysis System) (Gasteiger et al 2003) construit autour
drsquoUniprot est un portail vers un ensemble de sources proteacuteomiques Certains sites Web
proposent un accegraves unifieacute et convivial agrave un ensemble de donneacutees compleacutementaires SRS50
(Sequence Retrieval System) (Zdobnov et al 2002) (de lrsquoEBI) est un portail qui semble
eacutevoluer aujourdrsquohui vers un reacuteel systegraveme drsquointeacutegration Il est baseacute sur un modegravele objet et
permet drsquointerroger 400 banques biologiques de faccedilon uniforme par mots cleacutes Lrsquooriginaliteacute
de ce portail vient du fait qursquoil propose agrave ses utilisateurs de naviguer agrave travers les bases
comme dans un reacuteseau en combinant les index des sites des bases et en exploitant leurs
reacutefeacuterences croiseacutees Ainsi GeneCards (Rebhan et al 1997) regroupe un ensemble
drsquoinformations permettant une vue geacuteneacuterale de la connaissance sur les gegravenes du geacutenome
humain
Dans les sous-sections suivantes nous deacutecrivons drsquoune maniegravere globale deux types
drsquoapproches non mateacuterialiseacutees utiliseacutees dans le domaine de lrsquointeacutegration de donneacutees
biologiques le systegraveme meacutediateur et le systegraveme navigationnel
311 Le systegraveme meacutediateur
Dans cette section nous deacutecrivons lrsquoapproche meacutediateur qui propose de construire un
systegraveme drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent
stockeacutees dans leurs sources drsquoorigine Dans la communauteacute biologique lrsquoarchitecture
meacutediateur est souvent consideacutereacutee comme une approche bases de donneacutees feacutedeacutereacutees Nous
indiquerons dans cette section comment certaines approches meacutediateur sont directement
issues des bases de donneacutees feacutedeacutereacutees La deacutefinition que nous utiliserons drsquoun meacutediateur est
celle qui est la plus reacutepondue en informatique
48
httpwwwncbinlmnihgovsitesgquery 49
httpexpasyorg 50
httpsrsebiacuk
54
A) Deacutefinition et Architecture
Le meacutediateur (Wiederhold 1992) consiste agrave deacutefinir une interface entre lrsquoutilisateur qui pose
une requecircte et lrsquoensemble des sources accessibles via le Web potentiellement pertinentes
pour reacutepondre Lrsquoobjectif est de donner lrsquoimpression drsquointerroger un systegraveme centraliseacute et
homogegravene alors que les sources interrogeacutees sont reacuteparties autonomes et heacuteteacuterogegravenes
Un meacutediateur (Figure 1) comprend un scheacutema global ou ontologie dont le rocircle est
central Crsquoest un modegravele du domaine drsquoapplication du systegraveme Le scheacutema global fournit un
vocabulaire structureacute servant de support agrave lrsquoexpression des requecirctes Par ailleurs elle eacutetablit
une connexion entre les diffeacuterentes sources accessibles En effet dans cette approche
lrsquointeacutegration drsquoinformation est fondeacutee sur lrsquoexploitation de vues abstraites deacutecrivant de
faccedilon homogegravene et uniforme le contenu des sources drsquoinformation dans les termes de
lrsquoontologie Les sources drsquoinformation pertinents pour reacutepondre agrave une requecircte sont
calculeacutees par reacuteeacutecriture de la requecircte en termes de ces vues Le problegraveme consiste agrave trouver
une requecircte qui selon le choix de conception du meacutediateur est eacutequivalente ou implique
logiquement la requecircte de lrsquoutilisateur mais nrsquoutilise que des vues Les reacuteponses agrave la requecircte
poseacutee sont ensuite obtenues en eacutevaluant les reacuteeacutecritures de cette requecircte sur les extensions
des vues
Figure 1 Architecture dun systegraveme meacutediateur
55
Lrsquoapproche meacutediateur preacutesente lrsquointeacuterecirct de pouvoir construire un systegraveme
drsquointerrogation de sources de donneacutees sans toucher aux donneacutees qui restent stockeacutees dans
leurs sources drsquoorigine Ainsi le meacutediateur ne peut pas eacutevaluer directement les requecirctes qui
lui sont poseacutees car il ne contient pas de donneacutees ces derniegraveres eacutetant stockeacutees de faccedilon
distribueacutee dans des sources indeacutependantes Lrsquointerrogation effective des sources se fait via
des adaptateurs appeleacutes des wrappers en anglais qui traduisent les requecirctes reacuteeacutecrites en
terme de vues dans le langage de requecirctes speacutecifique accepteacute par chaque source
B) Approches GAV LAV et GLAV
Les diffeacuterents systegravemes drsquointeacutegration drsquoinformations agrave base de meacutediateur se distinguent par
la faccedilon dont est eacutetablie la correspondance entre le scheacutema global et les scheacutemas des
sources de donneacutees agrave inteacutegrer (Levy 1999) On distingue en effet deux maniegravere principales
drsquoeacutetablir la correspondance entre le scheacutema global et les scheacutemas des sources de donneacutees agrave
inteacutegrer (GAV et LAV) et une troisiegraveme maniegravere qui combine les deux preacuteceacutedentes
(GLAV) (Baader et al 2003)
Lrsquoapproche Global As View (GAV) a eacuteteacute la premiegravere agrave ecirctre proposeacutee pour
lrsquointeacutegration drsquoinformations et provient du monde des bases de donneacutees feacutedeacutereacutees Elle
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas des sources de donneacutees agrave
inteacutegrer Pour cela les structures du scheacutema global aussi appeleacutees relations globales sont
deacutefinies agrave partir des vues sur les structures des scheacutemas des sources agrave inteacutegrer Cette
approche alors suppose que les sources agrave inteacutegrer soient connues agrave lrsquoavance
Comme les requecirctes drsquoun utilisateur srsquoexpriment en termes des structures du
scheacutema global on obtient facilement une requecircte en termes des scheacutemas des sources de
donneacutees inteacutegreacutees en remplaccedilant les structures du scheacutema global par leur deacutefinition on dit
que lrsquoon procegravede au deacutepliement de la requecircte Cette opeacuteration de deacutepliement est effectueacutee
par chainage arriegravere51 lorsque les requecirctes et les vues sont deacutefinies par des regravegles Une fois
deacuteplieacutee une requecircte peut alors ecirctre eacutevalueacutee de faccedilon standard sur les extensions des sources
de donneacutees Ainsi la construction de la reacuteponse agrave une requecircte dans une approche GAV se
ramegravene agrave lrsquoeacutevaluation standard drsquoune requecircte une fois sa reformulation par deacutepliement
effectueacutee Lrsquoinconveacutenient de lrsquoapproche GAV est qursquoelle est peu adapteacutee agrave lrsquoajout de
nouvelles sources de donneacutees
La Figure 2 illustre lrsquoapproche GAV ougrave un scheacutema global G(ARBC SB) est
geacuteneacutereacute en reacutesumant les scheacutema sources R et S Tous les eacuteleacutements dans les scheacutemas sources
ont des noms correspondants dans le scheacutema global mecircme si quelques-uns drsquoentre eux tels
que RB et SB partagent le mecircme sens Cependant il devient difficile de mettre agrave jour le
scheacutema global agrave cause de la deacutependance entre le scheacutema global et les scheacutemas locaux Par
51
Le meacutecanisme de chaicircnage arriegravere consiste agrave partir du fait que lrsquoon souhaite eacutetablir agrave rechercher toutes les regravegles qui concluent sur ce fait agrave construire la liste des faits qursquoil suffit de prouver pour qursquoelles puissent se deacuteclencher puis agrave appliquer reacutecursivement le mecircme meacutecanisme aux faits contenus dans ces listes
56
exemple si le scheacutema global a eacuteteacute mis agrave jour (par exemple de nouveaux eacuteleacutements ont eacuteteacute
ajouteacutes) tous les scheacutemas sources doivent mettre agrave jour leur vue locale sur le scheacutema global
Drsquoautre part lrsquoajout ou la suppression de sources peut reacutesulter en des modifications
consideacuterables sur le scheacutema global Comme illustreacute dans la Figure 2 si un nouveau nœud T
a eacuteteacute ajouteacute au systegraveme le scheacutema global doit ecirctre modifieacute en Grsquo(ARBC SB TAD)
Figure 2 Lapproche GAV (Global As View)
Lrsquoapproche Local As View (LAV) est lrsquoapproche duale qui consiste agrave deacutefinir les
scheacutemas des sources de donneacutees agrave inteacutegrer en fonction du scheacutema global Les avantages et
inconveacutenients de cette approche sont inverseacutes par rapport agrave lrsquoapproche GAV Lrsquoapproche
LAV (Figure 3) est tregraves flexible par rapport agrave lrsquoajout (ou la suppression) de sources de
donneacutees agrave inteacutegrer cela nrsquoa aucun effet sur le scheacutema global seules des vues doivent ecirctre
ajouteacutees (ou supprimeacutees) En effet rajouter une source revient agrave la deacutecrire en fonction du
scheacutema global qui nrsquoest donc absolument pas modifieacute Le prix agrave payer pour cette flexibiliteacute
et cette simpliciteacute de mise agrave jour est la complexiteacute de la construction des reacuteponses agrave une
requecircte dans un meacutediateur conccedilu selon lrsquoapproche LAV La reacuteeacutecriture de requecirctes en
termes de vues est en effet bien plus complexe que dans une approche GAV Nous
renvoyons le lecteur agrave (Levy 1999) pour une discussion formelle
Figure 3 Lapproche LAV (Loacl As View)
57
Une approche mixte appeleacutee GLAV (Baader et al 2003) Dans lrsquoapproche
GLAV (Figure 4) lrsquointeacutegration entre le scheacutema meacutediateur et les scheacutemas locaux est reacutealiseacutee
en combinant les pouvoirs drsquoexpression des approches GAV et LAV Dans lrsquoapproche
GLAV lrsquoindeacutependance du scheacutema global la maintenance neacutecessaire pour ajouter une
nouvelle source et la complexiteacute de la reformulation des requecirctes sont les mecircmes que dans
lrsquoapproche LAV Cependant GLAV peut creacuteer une vue sur les sources en geacuteneacuterant une vue
sur le scheacutema global deacutecrite par les descriptions des sources Par conseacutequent GLAV peut
deacuteriver des donneacutees en utilisant les vues sur les scheacutemas sources ce qui est plus expressif
que LAV Drsquoautre part il permet la reformulation sur le scheacutema global ce qui va au-delagrave du
pouvoir drsquoexpression de GAV On peut remarquer que Grsquo dans la Figure 4 est juste la
conjonction de G et du scheacutema du nouveau nœud T La table 1 montre une comparaison
entre les trois approches
Figure 4 Approche GLAV
Table1 Comparaison des approches GAV LAV et GLAV
Approche Reacuteeacutecriture de requecircte mise-agrave-jour source
GAV facile difficile LAV difficile facile
GLAV difficile facile
C) Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Lrsquoavantage drsquoune architecture meacutediateur est que lrsquoutilisateur nrsquoa pas agrave se soucier du choix
des sources ce qui est autant plus important qursquoil a un grand nombre de sources
disponibles sur le Web Drsquoautre part lrsquoajout drsquoune nouvelle source de donneacutees est simple
surtout avec lrsquoapproche LAV puisqursquoil suffit de deacutecrire la source agrave ajouter en termes du
scheacutema meacutediateur Un meacutediateur eacutevite toute gestion des mises agrave jour des donneacutees puisque
58
les donneacutees restent dans les sources Dans le contexte des donneacutees biologiques qui
eacutevoluent tregraves rapidement cet avantage nrsquoest pas neacutegligeable
(2) Problegraveme rencontreacutes
Quelques problegravemes peuvent ecirctre rencontreacutes dans un systegraveme meacutediateur lieacutes au fait que les
donneacutees ne sont pas accessibles localement Le premier est celui du cas de panne drsquoune
source de donneacutees Dans telle situation on ne peut plus reacutepondre agrave certaines requecirctes
Le second inconveacutenient de lrsquoapproche meacutediateur est celui du temps de reacuteponse Les
reacuteponses eacutetant construites agrave la voleacutee et au fur et agrave mesure de la collecte des informations au
niveau de diffeacuterentes sources de donneacutees Le temps de reacuteponse agrave une requecircte est nettement
supeacuterieur agrave celui qursquoon a dans une approche mateacuterialiseacute ougrave lrsquointerrogation de donneacutees se
fait directement au niveau des donneacutees centraliseacutees
Grosso modo les principales difficulteacutes rencontreacutees dans la construction drsquoun meacutediateur
sont
Le choix du langage utiliseacute pour exprimer le scheacutema global ainsi que le choix des
langages pour exprimer en fonction de ce scheacutema les vues sur les sources agrave
inteacutegrer et les requecirctes des utilisateurs
En fonction de ces choix la conception et la mise en œuvre drsquoalgorithmes de
reacuteeacutecriture de requecirctes en termes de vues pour le calcul des plans de requecirctes agrave
exeacutecuter afin drsquoobtenir lrsquoensemble des reacuteponses agrave une requecirctes globale
Lrsquoeacutevaluation des plans de requecircte sur les sources lors drsquoune eacutevaluation de plans
de requecirctes sur les sources on reacutecupegravere un ensemble drsquoinstances qui peuvent ecirctre
potentiellement redondantes Pour faire correspondre les instances entre elles il
faut suivre les techniques de lrsquoalignement (mappings en anglais)
D) Panorama des meacutediateurs existants en Bioinformatique
(1) K2Kleisli
Le systegraveme K2 (Davidson et al 2001) initialement BioKleisli (Davidson et al 1997) a eacuteteacute
deacuteveloppeacute agrave lrsquouniversiteacute de Pennsylvanie il est lrsquoun des premiers systegravemes de meacutediation agrave
avoir vu le jour en bioinformatique
Le meacutediateur de BioKleisli repose sur un langage de requecircte de haut niveau plus
expressif que le SQL et qui permet drsquointerroger plusieurs sources le CPL (Collection
Programming Language) (Hart et al 1994) En effet le langage CPL permet de
deacutecomposer une requecircte complexe en sous-requecirctes qui vont ecirctre distribueacutees aux sources
concerneacutees par le biais drsquoadaptateurs Le systegraveme permet drsquointerroger autant de sources
59
qursquoil integravegre drsquoadaptateurs Ainsi il integravegre les donneacutees sur les voies meacutetaboliques de
KEGG (Kyoto Encyclopedia of Genes and Genomes) (Kanehisa and Goto 2000) et
EcoCyc ( Encyclopedia of Escherichia coli) (Keseler et al 2005) sur les seacutequences
nucleacuteiques de GenBank et de dbEST52 (Expressed Sequences Tags databases)(Boguski et
al 1993) des donneacutees speacutecifiques drsquoorganismes de MGD et de GDB53 (Human Genome
Databases) (Fasman et al 1994) des donneacutees issues de la recherche de similariteacutes de
seacutequence en utilisant BLAST (Altschul et al 1990) et lrsquoensemble des donneacutees indexeacutees par
SRS (Sequence Retrival System) (Zdobnov et al 2002) BioKleisli est baseacute sur un scheacutema
orienteacute objet
Dans K2 la nouvelle version de BioKleisli le langage CPL a eacuteteacute remplaceacute par OQL un
langage plus couramment utiliser car plus proche de la syntaxe du SQL Un autre aspect
inteacuteressant de K2 est la possibiliteacute pour lrsquoutilisateur de deacutefinir des vues sur les donneacutees non
seulement par le biais de requecirctes OQL mais eacutegalement par la creacuteation de nouvelle classes
objets Crsquoest le langage K2MDL (K2 Mediator Definition Language) combinaison du
langage ODL (Object Definition Language) et de la syntaxe OQL qui permet agrave lrsquoutilisateur
de creacuteer de nouvelles classes en speacutecifiant comment leurs attributs sont instancieacutes par les
sources de donneacutees Ces nouvelles vues peuvent ensuite ecirctre interrogeacutees par OQL
(2) TAMBIS
Tambis (Transparent Access to Multiple Bioinformatic Information Sources) est un
systegraveme de meacutediation baseacute sur une ontologie deacuteveloppeacute agrave lrsquouniversiteacute de Manchester
(Stevens et al 2000) Lrsquooriginaliteacute du systegraveme est drsquoecirctre baseacute sur une ontologie TaO
(Tambis Ontology) (Baker et al 1999) Les requecirctes dans TAMBIS sont formuleacutees agrave
travers une interface graphique ougrave lrsquoutilisateur navigue agrave travers les concepts deacutefinis au
niveau du scheacutema global et choisi ceux qui lrsquointeacuteressent pour la requecircte courante Le
systegraveme utilise la logique de description GRAIL (Rector et al 1997) qui est aussi utiliseacutee
pour exprimer des requecirctes sur le systegraveme Les concepts sont organiseacutes en hieacuterarchie et les
rocircles assurent des relations binaires entre concepts Ainsi lorsqursquoun utilisateur pose une
requecircte il explore lrsquoontologie et choisit la combinaison de concepts et de rocircles neacutecessaire agrave
la formulation de sa requecircte Cette requecircte est ensuite convertie dans le langage CPL de
K2 assurant la transformation des requecirctes pour adopter les paramegravetres propres aux
sources de donneacutees Le reacutesultat du plan de requecirctes est ensuite deacutelivreacute agrave lrsquoutilisateur au
format HTML
TaO a eacuteteacute ensuite eacutecrit avec le langage DAML +OIL (Stevens et al 2002) puis avec
OWL qui sont des langages plus expressifs
52
httpwwwncbinlmnihgovdbEST 53
httpgdbwwwgdborg
60
Ainsi TAMBIS fournit un accegraves transparent aux sources de donneacutees ougrave lrsquoutilisateur nrsquoa
besoin ni de connaicirctre les sources agrave interroger pour une requecircte donneacutee ni ecirctre familier
avec un langage de requecircte particulier
(3) DiscoveryLink
DiscoveryLink est projet drsquoIBM reacutesulte de la fusion de Garlic54 (Roth et al 1996) et de
DataJoiner (Gupta and Lin 1994) (qui est baseacute sur DB2 (Chamberlin 1998)) Il utilise une
architecture de meacutediation et des adaptateurs afin de proposer une couche intermeacutediaire
drsquoaccegraves aux donneacutees de plusieurs sources biologiques DiscoveryLink (Haas et al 2001)
utilise le modegravele de donneacutees relationnel-objet il reacutesout les problegravemes drsquoheacuteteacuterogeacuteneacuteiteacute
syntaxique mais ne prend pas en compte les diffeacuterences seacutemantiques Les requecirctes sont
soumises en SQL sur le scheacutema global un plan drsquoexeacutecution est geacuteneacutereacute puis optimiseacute
lrsquoutilisateur nrsquoa pas agrave se preacuteoccuper des sources locales dont lrsquoaccegraves est geacutereacute par les
adaptateurs DiscoveryLink a deacutesormais changeacute son nom en Information Integrator
(Arenson 2003) mais fonctionne toujours selon le mecircme principe
(4) BACIIS
Le projet BACIIS (Biological And Chemical Information Integration System) est un
systegraveme de meacutediation qui integravegre des donneacutees biologiques et chimiques Comme TAMBIS
BACIIS est fondeacute sur une ontologie sous-tendue par une logique de description La logique
de BACIIS est Loom (MacGregor R and Bates R 1987) qui est moins expressive que le
langage GRAIL mais aussi moins coucircteuse Lrsquoontologie de BACIIS (BAO) a trois
dimensions les classes (hieacuterarchie classique is-a) les proprieacuteteacutes (attributs des classes
organiseacutes en hieacuterarchies) et les relations (liens entre les classes) Certaines meacutetadonneacutees
(lieacutees aux reacutefeacuterences croiseacutees entre les sources) et les problegravemes de traccedilabiliteacute ne sont que
rapidement eacutevoqueacutes dans la publication (Mahoui et al 2005)
La particulariteacute de BACIIS est lrsquointeacutegration drsquoun plus grand nombre de sources de
donneacutees Les concepteurs du systegraveme considegraverent en effet que lrsquointeacutegration de sources de
donneacutees chevauchantes par exemple deux banques de donneacutees proteacuteiques permet
drsquoobtenir des reacutesultats plus pertinents En effet BACIIS fournit des solutions au problegraveme
drsquoabsence de donneacutees dans certaines sources et de conflits entre donneacutees dus aux
inconsistances dans les sources de donneacutees Ceci est effectueacute par une eacutevaluation de la
correspondance seacutemantique entre deux objets de sources diffeacuterentes Un algorithme
permet drsquoeacuteliminer les donneacutees seacutemantiquement distantes dans le processus drsquointeacutegration
54
httpwwwalmadenibmcomcsgarlic
61
312 Le systegraveme navigationnel
Cette approche srsquoinspire de ce que font habituellement les utilisateurs lors drsquoune recherche
drsquoinformation sur le Web qui implique une recherche de page en page par clic de souris
Elle ne neacutecessite aucun apprentissage particulier drsquoun langage de requecirctes deacutedieacute et permet
de choisir les sources agrave utiliser Le scheacutema global preacutesenteacute agrave lrsquoutilisateur est facile agrave
construire car il se contente drsquounir ceux des sources entre eux Les donneacutees des banques
sont ensuite inteacutegreacutees en se basant sur leurs reacutefeacuterences croiseacutees En pratique les requecirctes
sont geacuteneacutereacutees agrave partir de formulaires sur le Web dont les parameacutetrages choisis sont
transformeacutes en expressions de chemin Crsquoest une approche inteacuteressante puisqursquoelle
permettre drsquoacceacuteder agrave des informations uniquement accessibles via une navigation entre les
sources de donneacutees (Friedman et al 1999) Les reacutesultats fournis par une premiegravere requecircte
peuvent ecirctre utiliseacutes comme point de deacutepart pour de nouvelles interrogations
A) Deacutefinition
Lrsquoapproche navigationnelle ne sous-entend pas une modeacutelisation des donneacutees elles-mecircmes
mais plutocirct une modeacutelisation repreacutesentant les sources comme un ensemble de pages avec
des interconnections et des points drsquoentreacutee ainsi que des informations compleacutementaires
telles que la speacutecification du contenu des sources des eacuteventuelles contraintes de chemins
et des paramegravetres facultatifs et obligatoires drsquoentreacutee (Hernandez and Kambhampati 2004)
Notons que compareacute au nombre important de sources de donneacutees actuellement
disponibles sur le Web nombre qui a atteint 1380 selon les critegraveres de Michael Galperin
dans son reacutefeacuterencement publieacute chaque anneacutees dans le journal Nucleic Acids Research
(Galperin and Fernaacutendez-Suaacuterez 2012) le nombre de reacutefeacuterences croiseacutees est faible Les
sources les plus importantes partagent des identifiants mais nombreuses sont celles plus
petites qui soit adoptent un systegraveme drsquoidentification proprieacutetaire soit ne proposent que
partiellement des reacutefeacuterences partageacutees Les systegravemes baseacutes sur le partage de reacutefeacuterences
souffrent drsquoun manque de flexibiliteacute lors de lrsquoajout drsquoune source le calcul de toutes les
interconnexions fait surgir le problegraveme N2 (Morris 2003) Lrsquointeacutegration navigationnelle
atteint donc rapidement ses limites lorsque le nombre de sources qui inteacuteressent lrsquoutilisateur
augmente et peut mener agrave des problegravemes de deacutesorientation et de surcharge cognitive
(Martin 1996) Lrsquoexpression des vues et des jointures est difficile puisque souvent limiteacutee
par le manque drsquoexpressiviteacute inheacuterent aux formulaires de requecirctes utiliseacutes sur internet
Malgreacute ses deacutefauts lrsquointeacutegration navigationnelle peut avoir des avantages pour interroger
rapidement des sources heacuteteacuterogegravenes et distribueacutees et confronter leurs informations Elle ne
neacutecessite pas drsquoapprentissage et se preacutesente comme un moyen simple drsquoacceacuteleacuterer ce qui est
fait encore aujourdrsquohui manuellement
B) Exploitation des reacutefeacuterences croiseacutees
Les liens entre les donneacutees geacutenomiques sont de natures varieacutees On peut distinguer dans un
premier temps les liens qui conduisent agrave des donneacutees sur une mecircme entiteacute (par exemple
62
Proteacuteine agrave Proteacuteine de UniProt agrave Protein du NCBI) des liens qui apportent des
informations sur une autre entiteacute (par exemple Gegravene agrave Pathologie de GenBank agrave OMIM55)
Ensuite on distingue les liens internes permettant drsquoacceacuteder agrave des donneacutees drsquoune
mecircme source (par exemple KEGG vers KEGG) des liens externes permettant drsquoacceacuteder agrave
des donneacutees drsquoune autre source (par exemple GenBank vers AmiGO56) Les liens externes
sont eacutegalement qualifieacutes de reacutefeacuterences croiseacutees ou cross-reacutefeacuterences ils ne sont pas
neacutecessairement symeacutetriques Il y a par exemple un grand nombre de sources qui cross-
reacutefeacuterencent GenBank et qui ne sont pas reacutefeacuterenceacutees en retour
La plupart de sources de donneacutees font reacutefeacuterence agrave des informations communes sur
lesquelles il est possible de srsquoappuyer afin de rassembler les donneacutees Les liens que nous
consideacuterons se basent sur la preacutesence drsquoune entiteacute commune entre deux sources comme le
montre lrsquoexemple de la Figure 5
Figure 5 Exemple de partage de reacutefeacuterences entre les sources
Regardons en deacutetail les bregraveve descriptions des quatre sources preacutesenteacutees dans
lrsquoexemple de Figure 5 nous voyons que chacune possegravede un identifiant unique (numeacutero
drsquoaccession pour certains bases de donneacutees) pour les donneacutees qursquoelle contient (indiqueacute en
gras) mais aussi des reacutefeacuterences aux identifiants des autres sources (indiqueacutees en italique)
Sur notre exemple illustratif plusieurs chemins peuvent ecirctre emprunteacutes pour obtenir les
mecircmes donneacutees Supposons par exemple que lrsquoutilisateur souhaite inteacutegrer la description la
reacutefeacuterence et lrsquoidentifiant drsquoun gegravene agrave partir de la donneacutees date de deacutecouverte qursquoil connaicirct
55
httpwwwncbinlmnihgovomim 56
httpamigogeneontologyorgcgi-binamigogocgi
63
La Figure 6 illustre le graphe de liens existants entre les quatre sources pour
reacutepondre agrave la requecircte
Figure 6 Graphe de liens entre les sources
En utilisant les sources Source1 Source2 et Source3 deux possibiliteacute se repreacutesentent
Soit en interrogeant Source1 puis Source2 gracircce agrave id2 et enfin Source3 gracircce agrave id3
Soit en interrogeant drsquoabord source3 pour ensuite reacuteutiliser les identifiants qursquoelle
possegravede afin drsquointerroger Source1 et Source2
La table 2 syntheacutetise les deux sceacutenarios possibles La collecte srsquoarrecircte degraves qursquoune
boucle apparaicirct dans le parcours des sources
Table 2 Les deux deacuteroulements possibles
Collecte de donneacutees entre S1 S2 et S3 agrave partir drsquoune date
Sceacutenario 1 Sceacutenario 2
Requecircte avec une date sur S1
Requecircte sur S2
Agrave partir de id2 tireacute de S1
Requecircte sur S3
Requecircte avec une date sur S3
Requecircte sur S1 et S2
A partir de id1 et id2 tireacutes de S3
64
Cet exemple simple nous a permis de mettre en eacutevidence qursquoil existe plusieurs
chemins possible pour obtenir les donneacutees souhaiteacutees
Dans certain nombre de cas il est impossible de satisfaire la requecircte de lrsquoutilisateur
simplement agrave partir des sources qursquoil a choisi Sur notre exemple preacuteceacutedent ce cas de figure
apparaicirct si on souhait extraire les publications de la Source4 associeacutees agrave des gegravenes extraits de
la Source1 Il est impossible de joindre ces donneacutees sans passer par une source intermeacutediaire
La source2 doit ecirctre utiliseacutee alors qursquoelle ne fait pas partie du choix de lrsquoutilisateur et qursquoelle
nrsquoapporte aucune information suppleacutementaire
Lrsquoexploitation des reacutefeacuterences partageacutees entre les sources biologiques afin drsquointeacutegrer
les donneacutees a deacutejagrave eacuteteacute le centre de plusieurs projets Ces projets sont discuteacutes dans la sous-
section suivante
C) Panorama des systegravemes navigationnels existants en Bioinformatique
Les systegravemes deacuteveloppeacutes utilisant lrsquoapproche navigationnelle varient en fonction de
plusieurs critegraveres On constate diffeacuterents niveaux de transparence laisseacutes agrave lrsquoutilisateur pour
le choix des sources agrave interroger une prise en compte ou non des diffeacuterents chemins
traversant les sources pouvant ecirctre geacuteneacutereacutes pour une mecircme requecircte et la maniegravere dont sont
eacutevalueacutes ces diffeacuterents chemins
(1) Le systegraveme SRS
SRS (Sequence Retrieval System) est un systegraveme qui a eacuteteacute initialement deacuteveloppeacute par
lrsquoEMBL puis par lrsquoEBI afin de faciliter lrsquoaccegraves aux banques de seacutequences (Etzold and
Argos 1993 Etzold et al 1996) Depuis 1999 SRS est valoriseacute et commercialiseacute par
LION Bioscience AG57 Il permet drsquointerroger agrave lrsquoaide drsquoune mecircme interface 400 banques
de donneacutees (Zdobnov et al 2002)
SRS est plus un systegraveme de recherche par mot cleacute qursquoun veacuteritable systegraveme
drsquointeacutegration En effet son approche drsquointeacutegration repose sur lrsquoutilisation du langage de
description et drsquoexploration des donneacutees ICARUS (Interpreter of Commands And
Recursive Syntax) qui permet drsquoindexer toute source de donneacutees structureacutee Ce langage est
drsquoabord utiliseacute pour parcourir les sources de donneacutees structureacutees afin drsquoidentifier les
donneacutees qui y sont deacutecrites puis creacuteer des index pour chacune de ces donneacutees Ces index
sont stockeacutes localement et sont utiliseacutes lors des interrogations pour la recherche
drsquoinformations Mecircme si ces index sont stockeacutes localement SRS ne constitue pas un
entrepocirct de donneacutees puisque les donneacutees elles-mecircmes ne sont pas inteacutegreacutees
Ainsi le principal avantage de ce systegraveme est la possibiliteacute de pouvoir indexer en
mecircme temps une grande quantiteacute de banques sans se soucier de lorganisation de celles-ci et
57
httpwwwbiochipnetcomnode1561
65
donc de pouvoir manipuler avec le mecircme langage les principales banques geacuteneacuteralistes et
beaucoup de banques speacutecialiseacutees
ICARUS autorise la creacuteation automatique drsquoun reacuteseau de cross-reacutefeacuterences
permettant ainsi la navigation inter-banques Cette fonctionnaliteacute fait qursquoil est possible de
relier entre elles des collections ne preacutesentant pas directement de cross-reacutefeacuterences
La formulation de requecirctes via SRS se fait par lrsquointermeacutediaire drsquoune interface Web
SRS propose aux utilisateurs de choisir la source de donneacutees agrave interroger ainsi que le mot
cleacute ou la seacutequence agrave rechercher Plusieurs critegraveres de seacutelection ou plusieurs sources peuvent
ecirctre utiliseacutes par le biais drsquoopeacuterateurs logiques ET OU et NON SRS deacutelivre le reacutesultat de la
recherche ainsi que toute information relative agrave la requecircte en exploitant le reacuteseau de cross-
reacutefeacuterences Lrsquoutilisateur peut ainsi acceacuteder (par simples clics) agrave des informations
compleacutementaires contenues dans drsquoautres sources
Si SRS utilise les cross-reacutefeacuterences preacutesentes dans les sources de donneacutees biologiques
pour satisfaire au mieux les requecirctes ce systegraveme nrsquooffre aucune transparence au niveau des
sources et nrsquoexploite en aucun cas la diversiteacute de chemins pouvant ecirctre geacuteneacutereacutee pour une
mecircme requecircte
(2) Le systegraveme BioMediator
Le systegraveme BioMediator initialement GeneSeek (Mork et al 2001) a eacuteteacute deacuteveloppeacute agrave
lrsquouniversiteacute de Washington Les concepteurs de BioMediator optent pour un niveau de
transparence ougrave lrsquoutilisateur deacutepose une requecircte au systegraveme puis reacutecupegravere son ou ses
reacutesultats sans avoir agrave speacutecifier les chemins agrave parcourir et donc les sources agrave interroger
Plusieurs chemins peuvent ecirctre parcourus pour reacutepondre agrave une mecircme requecircte et
lrsquoensemble des reacutesultats par chemin est deacutelivreacute agrave lrsquoutilisateur
Le systegraveme BioMediator suit une conception modulaire composeacute de six composant
(Figure 7) qui effectuent linteacutegration des donneacutees sur plusieurs sources de donneacutees
biologiques structureacutes et semi-structureacutees
Figure 7 Diagramme drsquo architecture de BioMediator adapteacute de
66
Dans un sens large le systegraveme BioMediator deacutefinit et traverse un graphe ougrave les nœuds
repreacutesentent des instances de sources de donneacutees pour les entiteacutes dans le scheacutema de
meacutediation Les arecirctes repreacutesentent des instances des relations qui relient les entiteacutes entre
une ou plusieurs sources et le scheacutema Lors drsquoune exeacutecution un chemin entre deux entiteacutes
dinteacuterecirct peut ecirctre construit par la concateacutenation de plusieurs arecirctes au niveau graphe
PQL (Figure 7 A) (Mork et al 2002) est un langage de requecircte baseacute sur le chemin
PQL contient des regravegles permettant agrave lutilisateur de speacutecifier des contraintes de la requecircte
et le chemin entre les bases de donneacutees Le Reformulator (Figure 7 B) accepte les requecirctes
dentreacutee PQL et eacutenumegravere tous les chemins La base de connaissances de la source (SKB)
(Mork et al 2001) (Figure 7 C) est repreacutesenteacute par Proteacutegeacute58 et est accessibles via lAPI
Proteacutegeacute Elle contient a) toutes les entiteacutes les attributs et les relations dans le scheacutema
meacutediation b) le catalogue de toutes les sources de donneacutees possibles et les eacuteleacutements de
scheacutema meacutediation quils contiennent c) les regravegles de mappage pour une translation
seacutemantique et bidimensionnelle des flux entre les requecirctes et les sources de donneacutees
(Shaker et al 2002) Le moteur drsquoexeacutecution de requecircte (Qexo59 (Figure 7 D)) accepte
XQuery comme entreacutee et des URLs comme sortie Le metawrapper (Shaker et al 2002)
(Figure 7 E)transforme les URLs en requecirctes effectueacutees sur les sources par lrsquoapplication des
regravegles de mapping stockeacutees au niveau de SKB Finalement les adaptateurs envoient les
requecirctes aux speacutecifiques sources de donneacutees Les reacutesultats consistent en un ou plusieurs
chemins ainsi que les donneacutees retrouveacutees par ces diffeacuterents chemins
Mork et al ont au deacutepart chercheacute agrave deacuteterminer la validiteacute des diffeacuterents chemins (Mork
et al 2001) Pour ce faire ils ont utiliseacute comme critegravere la cardinaliteacute des reacutefeacuterences qui
correspond au nombre drsquoentreacutees retrouveacutees par une reacutefeacuterence et ont attribueacute une
confiance drsquoautant plus haute que la cardinaliteacute eacutetait reacuteduite (Mork et al 2002) Par la suite
Mork et al ont preacutefeacutereacute que lrsquoeacutevaluation des laquo bons chemins raquo soit faite par lrsquoutilisateur
plutocirct que par le systegraveme lui-mecircme Ainsi avec PQL le systegraveme deacutelivre lrsquoensemble des
chemins possibles plutocirct qursquoune liste reacuteduite
(3) Le systegraveme BioNavigation
BioNavigation est un systegraveme drsquointeacutegration eacutegalement baseacute sur lrsquoapproche navigationnelle
Il a eacuteteacute deacuteveloppeacute agrave lrsquouniversiteacute drsquoArizona (Lacroix et al 2005a)
Ce systegraveme utilise les ontologies afin drsquoeacuteviter agrave lrsquoutilisateur lors drsquoune interrogation
drsquoavoir agrave speacutecifier les sources agrave utiliser Drsquoapregraves Lacroix ceci permet aux utilisateurs de ne
pas restreindre leurs requecirctes aux caracteacuteristiques et aux limitations des sources qursquoils ont
lrsquohabitude drsquoutiliser Ainsi BioNavigation utilise deux niveaux de repreacutesentation le niveau
physique qui deacutecrit les sources leurs contenus et leurs liens entre elles et le niveau logique
58
httpprotegestanfordedu 59
httpwwwxmlcompuba20030611qexohtml
67
ou laquo ontologie BioNavigation raquo qui deacutecrit les entiteacutes biologiques les relations entre ces
entiteacutes ainsi que les correspondances avec les sources contenant ces entiteacutes (Figure 8)
Lrsquoontologie permet agrave lrsquoutilisateur de visualiser et de naviguer au sein des diffeacuterentes
entiteacutes biologiques et ainsi de seacutelectionner graphiquement celles qui sont neacutecessaires agrave la
construction drsquoune requecircte (Lacroix et al 2005b) Un utilisateur souhaitant reacutecupeacuterer les
citations discutant drsquoun gegravene particulier va drsquoabord graphiquement seacutelectionner lrsquoentiteacute
lsquoGegravenersquo puis la relation lsquodiscuteacute dansrsquo puis lrsquoentiteacute lsquoCitationrsquo
BioNavigation fournit agrave lrsquoutilisateur lrsquoensemble des chemins possibles pour une
requecircte donneacutee Mais BioNavigation apporte une plus-value en fournissant agrave lrsquoutilisateur
des moyens pour eacutevaluer et optimiser les choix de chemins
Figure 8 Exemple de graphe dentiteacutes (Niveau logique)
Les concepteurs du systegraveme BioNavigation ont en effet deacutemontreacute qursquoen fonction
du choix du chemin diffeacuterents facteurs peuvent varier comme le coucirct en temps
drsquoexeacutecution de la requecircte la qualiteacute et la quantiteacute des reacutesultats obtenus (Lacroix and
Edupuganti 2004) Toutefois ils avancent qursquoil nrsquoy a pas un seul laquo meilleur chemin raquo pour
reacutepondre agrave une requecircte mais plutocirct plusieurs meilleurs chemins puisque plusieurs
paramegravetres peuvent permettre drsquoeacutevaluer la satisfaction drsquoun chemin Ainsi dans
BioNavigation lors de lrsquoexeacutecution drsquoune requecircte tous les chemins possibles sont geacuteneacutereacutes et
sont classeacutes selon trois paramegravetres
68
La cardinaliteacute du chemin Crsquoest le nombre drsquoinstances de chemins du reacutesultat Pour un
chemin de longueur 1 entre deux sources S1 et S2 crsquoest le nombre de paires lieacutees (e1e2)
ougrave e1 est une entreacutee de S1 et e2 de S2
La cardinaliteacute de la cible Crsquoest le nombre drsquoobjets retrouveacutes dans la source finale
Le coucirct de lrsquoeacutevaluation Crsquoest le coucirct total de la requecircte incluant le coucirct drsquoexeacutecution
locale et les deacutelais drsquoaccession aux sources
Le classement ainsi obtenu permet agrave lrsquoutilisateur de seacutelectionner le chemin qui le
satisfait au mieux en fonction de ses besoins En effet la cardinaliteacute du chemin reflegravete la
probabiliteacute qursquoil existe un chemin entre deux sources la cardinaliteacute de la cible indique le
nombre de reacutesultats en sortie et le coucirct de lrsquoeacutevaluation guide lrsquoutilisateur dans le choix du
chemin le plus efficace en temps
(4) Le systegraveme BioGuide
Les concepteurs du systegraveme de BioGuide ont apporteacute une dimension nouvelle agrave lrsquoapproche
navigationnelle il srsquoagit de la prise en compte des notions de preacutefeacuterence et de strateacutegies des
utilisateurs (Cohen-Boulakia et al 2004) (Cohen-Boulakia et al 2005) En effet
BioGuide un systegraveme qui aide lrsquoutilisateur agrave choisir des sources pertinentes et des outils
bioinformatiques adapteacutes agrave sa requecircte BioGuide offre un reacuteel support dans le processus
drsquointerrogation en proposant une repreacutesentation sous forme de graphe (a) du domaine
biologique (entiteacutes biologiques et relations entres elles) et (b) du reacuteseau formeacute par les outils
et les reacutefeacuterences croiseacutees preacutesents entre les sources Lrsquoutilisateur peut interagir avec ces
graphes et peut eacutegalement les modifier srsquoil le souhaite Il peut exprimer sa requecircte en y
seacutelectionnant des eacuteleacutements (les entiteacutes pour lesquelles il recherche de lrsquoinformation le type
de sources agrave consulter) En retour BioGuide lui fournit la liste des sources agrave consulter et
des outils agrave utiliser ainsi que lrsquoordre dans lequel il doit consideacuterer ces sources et outils sous
la forme de chemins entre les sources Ces chemins sont construits en respectant les
preacutefeacuterences de lrsquoutilisateur et en suivant la strateacutegie de son choix
Les preacutefeacuterences Les enquecirctes ont permis drsquoidentifier 30 critegraveres deacuteterminant la
preacutefeacuterence des utilisateurs et permettant donc de filtrer etou de classer les chemins
geacuteneacutereacutes pour une requecircte donneacutee Parmi ces critegraveres citons la fiabiliteacute et la faciliteacute
drsquoutilisation
Les strateacutegies De maniegravere naturelle un utilisateur souhaitant acceacuteder au reacutesultat
drsquoune requecircte impliquant plusieurs sources va naviguer au travers les sources pour lier les
diffeacuterentes entiteacutes biologiques impliqueacutees dans la requecircte Mais il existe des diffeacuterences de
strateacutegies selon si oui ou non les utilisateurs i) suivent un ordre dans le parcours des entiteacutes
au sein des sources ii) explorent des entiteacutes intermeacutediaires agrave celles contenues dans la
requecircte et iii) visitent une source donneacutee une seule fois
69
Globalement BioGuide suit des eacutetapes de (I) agrave (IV) (Figure 9) (I) la requecircte initiale de
lrsquoutilisateur Q se compose de (i) QentRel les entiteacutes et les relations seacutemantiques de la requecircte
et (ii) les choix de lrsquoutilisateur sur les critegraveres choisis de strateacutegies (ordre et entiteacutes-seulement)
(II) Agrave partir de Q le module EPG geacutenegravere ENTITY PATHS lrsquoensemble des chemins dans
le graphe des entiteacutes construit selon les critegraveres de strateacutegie ordre et entiteacutes-seulement (III) La
requecircte raffineacutee de lrsquoutilisateur Qse (ayant pour support le graphe des sources-entiteacutes) se
compose de (a) ENTITY PATHS la sortie du module EPG (b) le choix de lrsquoutilisateur sur
le critegravere de strateacutegie source-une-fois-pour-toutes et (c) les preacutefeacuterences de lrsquoutilisateur (IV) Agrave
partir de Qse et du graphe des sources-entiteacutes le module SEPT geacutenegravere la liste PATHS des
chemins de sources-entiteacutes qui peuvent ecirctre utiliseacutes pour reacutecolter des donneacutees
Figure 9 Architecture de BioGuide
Le systegraveme BioGuide fournit une interface permettant agrave un utilisateur de formuler
ses propres requecirctes mais eacutegalement de reacutegler ses propres paramegravetres de preacutefeacuterences et de
strateacutegies Un utilisateur peut ainsi filtrer sur diffeacuterents niveaux les chemins les entiteacutes ou
les sources Il peut ensuite combiner diffeacuterentes strateacutegies Les concepteurs de BioGuide
ont deacutemontreacute qursquoune telle approche permet non seulement de rassembler un plus grand
nombre drsquoinformations mais aussi de confronter et donc de comprendre des donneacutees
divergentes entre chemins diffeacuterents (Cohen-Boulakia et al 2005)
70
32 Approche mateacuterialiseacutee (Entrepocirct de donneacutees)
Construire un entrepocirct de donneacutees consiste agrave mateacuterialiseacute localement les donneacutees
reacutecupeacutereacutees sur les sources les transformer afin de les rendre compatible avec le scheacutema
global preacutealablement deacutefini faire la part des redondances et des compleacutementariteacutes puis
exeacutecuter des requecirctes sur les donneacutees consolideacutees Lrsquoentrepocirct de donneacutees ou data warehouse
est un concept speacutecifique de lrsquoinformation deacutecisionnelle issu du constat suivant les
donneacutees de lrsquoinformatique de production (eacutegalement appeleacutee lsquoinformatique
transactionnellersquo) ne se precirctent pas agrave une exploitation dans un cadre drsquoanalyse deacutecisionnelle
Les systegravemes de production sont en effet construits dans le but de traiter des opeacuterations
individuelles qui peuvent impliquer diffeacuterents meacutetiers du laboratoire ou de lrsquoentreprise et
surtout ne se preacuteoccupent pas de leur compilation ou de leur historisation dans le temps Agrave
lrsquoinverse les systegravemes deacutecisionnels doivent permettre lrsquoanalyse par sujets ou par meacutetiers Il
est donc souvent de seacuteparer ces deux mondes et de repenser les scheacutemas de donneacutees ce
qui implique lrsquounification des diffeacuterents gisements de donneacutees en un entrepocirct de donneacutees
global
321 Deacutefinition et Architecture
A) Deacutefinition
Le pegravere du concept60 dans son livre lsquoBuiliding the Data Warehousersquo (Inmon 2002) deacutecrit
lrsquoentrepocirct de donneacutees laquo lrsquoentrepocirct de donneacutees est une collection de donneacutees orienteacutees sujet inteacutegreacutees non
volatiles et historiseacutees disponibles pour le support drsquoun processus drsquoaide agrave la deacutecisionraquo Lrsquoentrepocirct nrsquoest
pas une simple copie des donneacutees de production Il est organiseacute et structureacute et se
caracteacuterise par des donneacutees que nous les deacutetaillons selon (Franco 1997)
Orientation sujet Les donneacutees drsquoun entrepocirct srsquoorganisent par sujets ou thegravemes
Cette organisation permet de rassembler toutes les donneacutees pertinentes agrave un sujet
et neacutecessaires aux besoins drsquoanalyse dans une structure unique
Inteacutegration Les donneacutees drsquoun entrepocirct sont le reacutesultat de lrsquointeacutegration de donneacutees
en provenance de multiples sources ainsi toutes les donneacutees neacutecessaires pour
reacutealiser une analyse particuliegravere se trouvent dans lrsquoentrepocirct Lrsquointeacutegration est le
reacutesultat drsquoun processus qui peut devenir tregraves complexe due agrave lrsquoheacuteteacuterogeacuteneacuteiteacute des
sources
Non volatiles Une requecircte lanceacutee agrave diffeacuterentes dates en preacutecisant la date de la
reacutefeacuterence de lrsquoinformation rechercheacutee donnera le mecircme reacutesultat Les donneacutees sont
non volatile elles ne disparaissent pas apregraves les mises agrave jours
60
httpenwikipediaorgwikiBill_Inmon
71
Historieacutee A la diffeacuterence des donneacutees opeacuterationnelles celles de lrsquoentrepocirct sont
permanentes et ne peuvent pas ecirctre modifieacutees Le rafraicircchissement de lrsquoentrepocirct
consiste agrave ajouter de nouvelles donneacutees sans modifier ou perdre celles qui existent
Un reacutefeacuterentiel de temps doit alors ecirctre associeacute aux donneacutees afin drsquoidentifier les
valeurs particuliegraveres dans le temps
Disponible pour le support drsquoun processus drsquoaide agrave la deacutecision Des outils
drsquoanalyse et drsquointerrogation doivent permettre aux utilisateurs de consulter
facilement les donneacutees
B) Architecture
Dans la Figure 10 nous preacutesentons une architecture simplifieacutee drsquoun entrepocirct de donneacutees en
deacutetaillant les diffeacuterentes couches qui le constituent
Figure 10 Architecture dun entrepocirct de donneacutees
Les donneacutees de lrsquoentrepocirct sont extraites de diverses sources souvent reacuteparties et
heacuteteacuterogegravenes et qui doivent ecirctre transformeacutees avant leur stockage dans lrsquoentrepocirct Les Data
Marts sont chargeacutes de reacutepondre aux requecirctes eacutemises par les utilisateurs Ils sont alimenteacutes
depuis lrsquoentrepocirct de donneacutees et interroger par les outils drsquoanalyse de type OLAP (On Line
Analytical Processing) (voir la sous-section 322)
Les donneacutees drsquoun entrepocirct de donneacutees se trouvent selon deux axes (Figure 11)
syntheacutetique et historique Lrsquoaxe syntheacutetique eacutetablie une hieacuterarchie drsquoagreacutegation et comprend
les donneacutees deacutetailleacutees (qui repreacutesentent les eacuteveacutenements les plus reacutecents au bas de la
hieacuterarchie) les donneacutees agreacutegeacutees (qui syntheacutetisent les donneacutees deacutetailleacutees) et les donneacutees
fortement agreacutegeacutees (qui syntheacutetisent agrave un niveau supeacuterieur les donneacutees agreacutegeacutees) (Benitez-
72
Guerrero et al 1999) Lrsquoaxe historique comprend les donneacutees deacutetailleacutees historiseacutees qui
repreacutesentent des eacuteveacutenements passeacutees Les Meacutetadonneacutees contiennent des informations
concernant les donneacutees dans lrsquoentrepocirct de donneacutees telle que leur provenance et leur
structure ainsi que les meacutethodes utiliseacutees pour faire lrsquoagreacutegation
Figure 11 Architecture et niveaux drsquoagreacutegation des donneacutees
322 Inteacutegration de donneacutees dans un systegraveme entrepocirct
Lrsquointeacutegration est la proceacutedure qui permet de transfeacuterer les donneacutees des sources externes
vers lrsquoentrepocirct de donneacutees en les adaptant Elle est diviseacutee en quatre eacutetapes qui sont 1)
lrsquoextraction des donneacutees des sources 2) la transformation des donneacutees aux niveaux
structurel et seacutemantique 3) lrsquointeacutegration des donneacutees et enfin 4) le stockage des donneacutees
inteacutegreacutees dans le systegraveme cible
Il faut noter que cette deacutecomposition est seulement logique Lrsquoeacutetape drsquoextraction et
une partie de lrsquoeacutetape de transformation peuvent ecirctre groupeacutees dans le mecircme composant
logiciel tel qursquoun adaptateur (wrapper) ou un outil de migration de donneacutees Lrsquoeacutetape
drsquointeacutegration est souvent coupleacutee avec des possibiliteacutes de transformation de donneacutees dans
un mecircme composant logiciel qui habituellement reacutealise le chargement dans lrsquoentrepocirct de
donneacutees Toutes les eacutetapes de traitement peuvent aussi ecirctre groupeacutees dans un mecircme
logiciel Quand les eacutetapes drsquoextraction et drsquointeacutegration sont seacutepareacutees les donneacutees
neacutecessitent drsquoecirctre stockeacutees entre les deux Ceci peut ecirctre fait en utilisant un middleware par
source ou un middleware pour toutes les sources
73
Une vue opeacuterationnelle typique de ces composants est donneacutee par la Figure 12
Figure 12 Vue opeacuterationnelle des composants utiliseacutes pour la construction dentrepocirct de donneacutees
Lrsquoun des principaux problegravemes poseacutes par lrsquointeacutegration des donneacutees consiste agrave
effectuer la transformation des donneacutees du format des sources vers le format de lrsquoentrepocirct
de donneacutees Ce processus de transformation requiert la mise en correspondance
structurelle et seacutemantique entre le scheacutema des sources de donneacutees et le scheacutema global de
lrsquoentrepocirct de donneacutees (Bernstein and Rahm 2000) Il srsquoagit de la correspondance inter-
scheacutemas ou appariement de scheacutemas (schema matching)
Il existe diffeacuterentes approches de correspondance inter-scheacutemas Elles deacutependent
du type drsquoinformation du scheacutema qui est utiliseacute et comment cette information est
interpreacuteteacutee (Rahm and Bernstein 2001) Commenccedilons par rappeler les deacutefinitions de
scheacutema et de correspondance inter-scheacutemas
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations comme le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Etant donneacute un scheacutema global G et une source de donneacutees dont le scheacutema est noteacute
S la correspondance inter-scheacutemas consiste agrave identifier les eacuteleacutements des deux scheacutemas (S et
G) qui se correspondent et comment ces eacuteleacutements sont relieacutes On distingue diffeacuterents
types de relations entre les eacuteleacutements de deux scheacutemas Ils peuvent ecirctre directionnels (un
eacuteleacutement de S correspond agrave un eacuteleacutement de G) ou non directionnels (une combinaison
drsquoeacuteleacutements de S et G se correspondent) Il peut srsquoagir de relations par le biais drsquoopeacuterateurs
(= gt hellip) ou de fonctions (addition concateacutenation) Il peut srsquoagir de relations drsquoensembles
(chevauchement contenance) ou toute autre relation exprimeacutee en langage naturel
74
Lrsquoimpleacutementation des correspondances inter-scheacutemas se fait par des algorithmes
qui se basent sur diffeacuterents critegraveres pour eacutetablir les correspondances On distingue les
critegraveres de classification suivants (Rahm and Bernstein 2001)
Instance versus scheacutema Les correspondances peuvent ecirctre effectueacutees agrave partir
des instances (le contenu des donneacutees) ou seulement agrave partir de lrsquoinformation contenue au
niveau du scheacutema
Eleacutement versus structure Les correspondances peuvent ecirctre effectueacutees pour des
eacuteleacutements individuels du scheacutema ou pour des combinaisons drsquoeacuteleacutements comme des sous-
structures complexes de scheacutemas
Langage versus contrainte Les correspondances peuvent se baser sur des
approches linguistiques (en utilisant les noms des eacuteleacutements du scheacutema par exemple eacutegaliteacute
de nom synonymie etc hellip) ou sur des approches de contraintes (en utilisant les relations)
Correspondance de cardinaliteacute La correspondance peut ecirctre baseacutee sur la
relation drsquoun ou plusieurs eacuteleacutements drsquoun scheacutema avec un ou plusieurs eacuteleacutements de lrsquoautre
scheacutema ceci menant agrave quatre cas 11 1n n1 nm
Information auxiliaire Un certain nombre drsquoalgorithmes de correspondance ne
reposent pas uniquement sur les scheacutemas en entreacutee mais sur des informations auxiliaires
telles que les dictionnaires les scheacutemas globaux ou des correspondances deacutejagrave effectueacutees
Il faut noter que certains algorithmes effectuent les correspondances en se basant
sur un seul de ces critegraveres alors que certains combinent plusieurs critegraveres
323 Systegraveme drsquoinformation transactionnel versus deacutecisionnel
Le deacuteveloppement de lrsquoentrepocirct de donneacutees est une conseacutequence de lrsquoobservation par W
Inmon au deacutebut des anneacutees 90 sur le fait que le niveau opeacuterationnel du traitement
transactionnel OLTP (On Line Transactionnel Processing) et les applications drsquoaide agrave la
deacutecision OLAP (On Line Analytical Processing) ne peuvent pas coexister efficacement
dans le mecircme environnement de bases de donneacutees essentiellement agrave cause de leurs
caracteacuteristiques transactionnelles tregraves diffeacuterentes Lrsquoentrepocirct de donneacutees est diffeacuterent des
systegravemes drsquoinformations classiques qualifieacutes de Systegraveme drsquoInformation transactionnel car
les besoin par lesquelles on veut le construire sont diffeacuterents (Franco 1997)
Les systegravemes drsquoinformation transactionnels sont communeacutement appeleacutes OLTP
pour indiquer qursquoils servent agrave traiter des processus transactionnels en ligne Ces systegravemes
sont caracteacuteriseacutes par un nombre drsquoutilisateurs important des interrogations et des
modifications freacutequentes et des volumes de donneacutees par transaction relativement faible
Dans ce cadre le modegravele de donneacutees est destineacute agrave minimiser les redondances pour
preacuteserver la fiabiliteacute et la coheacuterence du systegraveme De cette maniegravere le systegraveme garantit une
75
reacuteduction des temps drsquoexeacutecution et facilite les proceacutedures drsquoajout de suppression et de
modification
Agrave lrsquoinverse les entrepocircts de donneacutees sont deacutedieacutes agrave la prise de deacutecision Ils sont
qualifieacutes de OLAP car lrsquoexploitation des informations contenues dans ces systegravemes est
reacutealiseacutee par des processus drsquoanalyse en ligne des donneacutees (Codd et al 1993) Ces systegravemes
sont utiliseacutes par un nombre restreint drsquoutilisateurs et privileacutegient le fait de pouvoir poser
une grande varieacuteteacute de requecirctes de maniegravere interactive et plus rapide qursquoen OLTP sur de
grands volumes de donneacutees Ces requecirctes peuvent ecirctre simples ou au contraire plus
complexes permettant ainsi de mettre en relation des eacuteleacutements qui a priori ne sont pas
correacuteleacutes au deacutepart Il faut donc une organisation qui permet de meacutemoriser de grands jeux
de donneacutees et qui facilite la recherche de connaissance Ainsi lrsquoentrepocirct de donneacutees est
entiegraverement construit selon une approche dimensionnelle De plus lrsquoinformation qursquoil
contient est mise agrave jour par des sources de donneacutees externes lors de proceacutedures de
chargement Aussi le modegravele de donneacutees doit assurer lrsquointeacutegriteacute des donneacutees lors de
lrsquointeacutegration Ceci implique une coheacuterence du scheacutema global de lrsquoentrepocirct et une
alimentation reacutefleacutechie et planifieacutee dans le temps
324 Les modegraveles des entrepocircts de donneacutees
La conception drsquoun entrepocirct de donneacutees est tregraves diffegraverent de celle drsquoune base de donneacutees
transactionnelles puisque les besoins en termes drsquoanalyses sont diffeacuterents Un entrepocirct de
donneacutees repose sur un modegravele multidimensionnel de donneacutees
A) La modeacutelisation conceptuelle
La conception des bases de donneacutees se base en geacuteneacuteral sur le modegravele Entiteacute Association
(E-A) Ce modegravele permet de deacutecrire des relations entre les donneacutees eacuteleacutementaires (entiteacutes)
en eacuteliminant les redondances ce qui provoque lrsquointroduction drsquoun nombre important de
nouvelles entiteacutes
De ce fait lrsquoaccegraves aux donneacutees devient compliqueacute et le diagramme geacuteneacutereacute difficile agrave
comprendre pour un utilisateur Crsquoest pour cette raison que lrsquoutilisateur de la modeacutelisation
E-A pour la conception drsquoun entrepocirct nrsquoest pas consideacutereacute comme approprieacute
(1) Concept de fait de dimension et de hieacuterarchie
Le modegravele multidimensionnel est une alternative mieux adeacutequate aux besoins de lrsquoanalyse
des donneacutees drsquoun entrepocirct La modeacutelisation multidimensionnelle part du principe que
lrsquoobjectif majeur est la vision multidimensionnelle des donneacutees Le constructeur
fondamental de ces modegraveles est le cube de donneacutees (Figure 13) qursquooffre une abstraction
tregraves proche de la faccedilon dont lrsquoanalyse voit et interroge les donneacutees Il organise les donneacutees
76
en une ou plusieurs dimensions61 qui deacuteterminent une mesure drsquointeacuterecirct ou bien le fait62
Une dimension speacutecifie la maniegravere dont on regarde les donneacutees pour les analyser alors
qursquoune mesure est un objet drsquoanalyse Chaque dimension est formeacutee par un ensemble
drsquoattributs et chaque attribut peut prendre diffeacuterentes valeurs
Figure 13 Exemple de cube de donneacutees
Les dimensions possegravedent en geacuteneacuteral des hieacuterarchies associeacutees qui organisent les
attributs agrave diffeacuterents niveaux pour observer les donneacutees agrave diffeacuterentes granulariteacutes Une
dimension peut avoir plusieurs hieacuterarchies63 associeacutees chacune speacutecifiant diffeacuterentes
relations drsquoordre entre ses attributs
Dans la Figure 13 on peut alors observer les donneacutees dans un espace agrave trois
dimensions la dimension Proteacuteine la dimension Organisme et la dimension Temps
Chaque intersection de ces dimensions repreacutesente une cellule comportant la Quantiteacute de la
proteacuteine
(2) Modegraveles en eacutetoile en flocon et en constellation
A partir du fait et des dimensions il est possible deacutetablir une structure de donneacutees
simple qui correspond au besoin de la modeacutelisation multidimensionnelle Cette structure
est constitueacutee du fait central et des dimensions (Figure 14) Ce modegravele repreacutesente
visuellement une eacutetoile on parle de modegravele en eacutetoile
61 Une dimension modeacutelise une perspective de lanalyse Une dimension se compose de paramegravetres
correspondant aux formations faisant varier les mesures de lactiviteacute 62
Le fait modeacutelise le sujet de lanalyse Un fait est formeacute de mesures correspondant aux informations de lactiviteacute analyseacutee 63
Une hieacuterarchie organise les paramegravetres dune dimension selon un ordre conformeacutement agrave leur niveau de deacutetail
77
Le modegravele en eacutetoile se compose du fait central et de leurs dimensions Dans ce
scheacutema il existe une relation pour les faits et plusieurs pour les diffeacuterentes dimensions
autour de la relation centrale La relation de faits contient les diffeacuterentes mesures et une cleacute
eacutetrangegravere pour faire reacutefeacuterence agrave chacune de leurs dimensions
Il existe dautres techniques de modeacutelisation multidimensionnelle notamment la
modeacutelisation en flocon (snowflake) Une modeacutelisation en flocon est une extension de la
modeacutelisation en eacutetoile il consiste agrave garder la mecircme table des faits et agrave eacuteclater les tables de
dimensions afin de permettre une repreacutesentation plus explicite de la hieacuterarchie (Jagadish et
al 1999) Elle peut ecirctre vue comme une normalisation des tables de dimensions
Lrsquoavantage du scheacutema en flocon de neige (Figure 15) est de formaliser une hieacuterarchie au
sein drsquoune dimension ce qui peut faciliter lrsquoanalyse Un autre avantage est repreacutesenteacute par la
normalisation des dimensions car nous reacuteduisons leur taille Neacuteanmoins dans (Kimball
2002) lrsquoauteur deacutemontre que crsquoest une perte de temps de normaliser les relations des
dimensions dans le but drsquoeacuteconomiser lrsquoespace disque Par contre cette normalisation rend
plus complexe la lisibiliteacute et la gestion dans ce type de scheacutema En effet ce type de scheacutema
augmente le nombre de jointures agrave reacutealiser dans lrsquoexeacutecution drsquoune requecircte
Dans lrsquoexemple ci-dessus (Figure 15) la dimension lsquoDimension 3rsquo a eacuteteacute eacuteclateacutee en
trois lsquoDimension 3rsquo lsquoSous-typersquo et lsquoTypersquo La dimension lsquoDimension 1rsquo a eacuteteacute deacutecomposeacute en
quatre lsquoDimension 1rsquo lsquoSs-ss-Catrsquo lsquoSous-Catrsquo et lsquoCateacutegoriersquo
Le scheacutema en constellation (Figure 16) fusionne plusieurs modegraveles en eacutetoile qui
utilisent des dimensions communes Un modegravele en constellation comprend donc plusieurs
faits et des dimensions communes (Benitez-Guerrero et al 2001)
B) La modeacutelisation logique
Au niveau logique plusieurs possibiliteacutes sont envisageables pour la modeacutelisation
multidimensionnelle Il est possible dutiliser
un systegraveme de gestion de bases de donneacutees existant tels que les SGBD
relationnels (ROLAP) ou bien les SGBD orientes objet (OOLAP)
un systegraveme de gestion de bases de donneacutees multidimensionnelles
(MOLAP)
Lapproche la plus couramment utiliseacutee consiste agrave utiliser un systegraveme de gestion de
bases de donneacutees relationnelles on parle de lapproche ROLAP (Relational On-Line
Analytical Processing) Le modegravele multidimensionnel est alors traduit de la maniegravere
suivante
Chaque fait correspond agrave une table appeleacute table de fait
Chaque dimension correspond agrave une table appeleacutee table de dimension
78
Figure 14 Modegravele en eacutetoile
Figure 15 modegravele en flocon
Figure 16 Modegravele en constellation
79
Ainsi la table de fait est constitueacutee des attributs repreacutesentant les mesures drsquoactiviteacutes
et les attributs cleacutes eacutetrangers de chacune des tables de dimension Les tables de dimension
contiennent les paramegravetres et une cleacute primaire permettant de reacutealiser des jointures avec la
table de fait
Plus reacutecemment une autre approche srsquoappuie sur le paradigme objet on parle de
lrsquoapproche OOLAP (Object On-Line Analytical Processing) Le modegravele multidimensionnel
se traduit ainsi
Chaque fait correspond agrave une classe appeleacutee classe de fait
Chaque dimension correspond agrave une classe appeleacutee classe de dimension
Pour deacutecrire les expressions qui deacutecrivent le scheacutema en eacutetoile ou en flocon on
utilise le langage de deacutefinition standard des bases de donneacutees orienteacutees objet deacutefini par
(Object Data Management Group) lrsquoODMG64
Une alternative agrave ces deux approches consiste agrave utiliser un systegraveme
multidimensionnel Les systegravemes de type MOLAP stockent les donneacutees dans un SGBD
multidimensionnel sous la forme drsquoun tableau multidimensionnel Chaque dimension de ce
tableau est associeacutee agrave une dimension du cube Seules les valeurs de donneacutees correspondant
aux donneacutees de chaque cellule sont stockeacutees (Figure 13) Ces systegravemes demandent un preacute-
calcul de toutes les agreacutegations possibles En conseacutequence ils sont plus performants que les
systegravemes traditionnels mais difficiles agrave mettre agrave jour et agrave geacuterer
Les systegravemes MOLAP apparaissent comme une solution acceptable pour le
stockage et lrsquoanalyse drsquoun entrepocirct lorsque la quantiteacute estimeacutee des donneacutees drsquoun entrepocirct ne
deacutepasse pas quelques giga-octets Mais lorsque les donneacutees sont eacuteparses ces systegravemes sont
consommateurs drsquoespace (Chaudhuri and Dayal 1997) et des techniques de compression
doivent ecirctre utiliseacutees
Linteacuterecirct est que les temps daccegraves sont optimiseacutes mais cette approche neacutecessite de
redeacutefinir des opeacuterations pour manipuler ces structures multidimensionnelles Parmi les
utiliseacutees sont
Pivot Cette opeacuteration consiste agrave faire effectuer agrave un cube une rotation autour drsquoun
des trois axes passant par le centre de deux faces opposeacutees de maniegravere agrave preacutesenter un
ensemble de faces diffeacuterents
Switch Cette opeacuteration consiste agrave inter-changer la position des membres drsquoune
dimension
Split Elle consiste agrave preacutesenter chaque tranche du cube et agrave passer drsquoune
repreacutesentation tridimensionnelle drsquoun cube agrave sa repreacutesentation sous la forme drsquoun ensemble
64
wwwodmgorg
80
de tables Drsquoune maniegravere geacuteneacuterale cette opeacuteration permet de reacuteduire le nombre de
dimensions drsquoune repreacutesentation On notera que le nombre de tables reacutesultant drsquoune
opeacuteration Split deacutepend des informations contenues dans le cube de deacutepart et nrsquoest pas
connu agrave lrsquoavance
C) La modeacutelisation de donneacutees XML multidimensionnelles
Lrsquoaugmentation de lrsquoeacutechange de donneacutees entre applications a inciteacute la creacuteation de standards
tels que XML aujourdrsquohui omnipreacutesent Drsquoeacutenormes quantiteacutes de donneacutees sont maintenant
disponibles au format XML et les outils permettant drsquoutiliser ces donneacutees srsquoameacuteliorent
chaque jour Plus particuliegraverement les bases de donneacutees XML natives et le langage
drsquointerrogation XQuery sont aujourdrsquohui suffisamment avanceacutes pour ecirctre utiliseacutes dans un
environnement de production Lrsquoapproche traditionnelle pour lrsquoentreposage de donneacutees
XML est de les convertir en donneacutees relationnelles Cependant mettre en place un
entrepocirct de donneacutees utilisant uniquement les technologies XML est une piste de recherche
inteacuteressante Les donneacutees peuvent ecirctre modeacuteliseacutees en tant que documents XML stockeacutes
dans une base de donneacutees XML native et analyseacutes agrave lrsquoaide de requecirctes XQuery
Lrsquoapproche X-Warehousing (Figure 17) (Boussaiumld et al 2006 Choquet and
Boussaiumld 2007) est entiegraverement baseacutee sur XML Elle apporte un niveau drsquoabstraction
pertinent pour preacuteparer ces derniers agrave lrsquoanalyse Elle permet de construire des cubes XML
Ces derniers sont composeacutes chacun drsquoune collection de documents XML Chaque
document correspond alors agrave un fait OLAP et doit satisfaire certaines contraintes comme
respecter une information minimale pour que le fait agrave observer soit consistant Pour cela la
validation des documents par un scheacutema XML est une tacircche indispensable Ce dernier
repreacutesente le modegravele conceptuel du cube qui geacuteneacuteralement consiste en un scheacutema en eacutetoile
ou en flocons de neige
Figure 17 Les eacutetape de lrsquoapproche X-Warehousing
81
La Figure 17 reacutesume les diffeacuterentes eacutetapes de lrsquoapproche X-Warehousing ougrave
lrsquoutilisateur deacuteclare ses objectifs drsquoanalyse sous la forme drsquoun modegravele conceptuel
multidimensionnel (MCM) Ce modegravele est exprimeacute par un scheacutema XML puis transformeacute
en un arbre drsquoattributs eacutegalement repreacutesenteacute par un scheacutema XML La contribution de cette
approche est drsquoobtenir un ensemble homogegravene de donneacutees avec des contraintes strictes sur
leurs contenus
Selon (Boussaiumld et al 2006) le fait (ou cube) eacutetant deacutefini comme un document
XML unique Chaque document XML de ce cube repreacutesente un fait OLAP constitueacute drsquoun
ou plusieurs indicateurs (mesures) agrave observer agrave travers des axes drsquoanalyse (dimensions et
hieacuterarchies de dimensions) Lrsquoensemble des documents XML entreposeacutes correspond au
modegravele physique du cube de donneacutees qui est deacutesigneacute par cube XML
325 Adeacutequation Problegravemes rencontreacutes
(1) Adeacutequation
Si beaucoup drsquoentrepocircts de donneacutees se sont deacuteveloppeacutes dans le secteur commercial depuis
les anneacutees 90 ce nrsquoest que depuis reacutecemment que lrsquoutilisation de lrsquoapproche entrepocirct srsquoest
reacutepandue en bioinformatique (Kasprzyk et al 2004) Ceci srsquoexplique par le fait que les
donneacutees biologiques contrairement aux donneacutees de lrsquoentreprise sont plutocirct descriptives et
non numeacuteriques et de nature complexes et heacuteteacuterogegravenes Ainsi les processus de mise en
œuvre de lrsquoentrepocirct deviennent plus complexes Cependant de nombreux avantages de
lrsquoapproche ont tout de mecircme motiveacute son utilisation dans le secteur de la bioinformatique
(Davidson et al 2001 Hernandez and Kambhampati 2004)
La grande capaciteacute de gestion et de stockage Lrsquoentrepocirct de donneacutees peut
stocker de larges volumes de donneacutees Ceci est tregraves bien adapteacute agrave la gestion de donneacutees
provenant de multiples sources priveacutees etou reacutepandues sur le Web mais eacutegalement agrave la
gestion de donneacutees issues des nouvelles technologies qualifieacutees de laquo haut deacutebit raquo
La repreacutesentation multidimensionnelle des donneacutees Lrsquoorganisation des
donneacutees par dimension est tregraves adapteacutee agrave la maniegravere avec laquelle sont speacutecialiseacutees par
thegravemes les sources de donneacutees geacutenomiques sur le Web Cependant il faut prendre en
consideacuteration le fait que certaines sources ont des contenus chevauchants Ainsi plusieurs
sources de donneacutees peuvent ecirctre utiliseacutees pour repreacutesenter une dimension cest-agrave-dire un
thegraveme
La performance des requecirctes Les donneacutees sont mateacuterialiseacutees physiquement au
sein drsquoun scheacutema global Les temps de connexion aux sources de donneacutees lors des requecirctes
sont eacutelimineacutes et les requecirctes sont optimiseacutees car elles sont exeacutecuteacutees localement
82
La transformation de donneacutees lors de lrsquointeacutegration Le processus de
transformation des donneacutees avant leur inteacutegration dans un scheacutema global permet de
reacuteconcilier les contenus provenant de sources de donneacutees chevauchantes (inteacutegration
verticale) etou compleacutementaires (inteacutegration horizontale) (voir sous-section 222) Ce
processus permet de reacutesoudre les nombreux problegravemes de nomenclature des gegravenes et de
reacuteconcilier cette connaissance au sein drsquoun mecircme scheacutema
La modification des donneacutees par lrsquoutilisateur Les donneacutees eacutetant disponibles
localement lrsquoutilisateur peut filtrer valider ou invalider rectifier ou annoter les donneacutees
provenant des sources Ainsi lrsquoexpertise de lrsquoutilisateur peut ecirctre prise en compte
(2) Problegravemes rencontreacutes
Les difficulteacutes lieacutees agrave lrsquoarchitecture entrepocirct se rencontrent drsquoabord lors de la construction
de lrsquoentrepocirct puis lors de sa maintenance Construire un entrepocirct neacutecessite une eacutetude des
sources agrave inteacutegrer pour identifier les informations pertinentes agrave stocker puis une extraction
des donneacutees des sources On construit alors le scheacutema inteacutegrateur Selon les cas cette
tacircche peut se faire manuellement ou par lrsquoutilisation drsquoalgorithmes (pour la deacutetection
drsquoanalogies entre les structures des sources par exemple) Cette eacutetape neacutecessite notamment
de choisir un langage adapteacute agrave la repreacutesentation des informations agrave stocker dans lrsquoentrepocirct
Lrsquoinsertion des donneacutees dans lrsquoentrepocirct est souvent preacuteceacutedeacutee drsquoune seacuterie de nettoyages
des donneacutees visant agrave supprimer les redondances possibles et les divergences des donneacutees
des sources (inteacutegration seacutemantique au niveau des scheacutemas et des instances)
Maintenir lrsquoentrepocirct consiste agrave mettre agrave jour les copies de lrsquoentrepocirct par rapport
aux sources ce qui impose drsquoeacutelaborer des meacutecanismes permettant de deacutetecter quand et
comment les donneacutees des sources changent Pour ce faire on deacuteveloppe des algorithmes
increacutementaux
Le problegraveme de la mise agrave jour des donneacutees est accru dans le domaine biologique car
les sources eacutevoluent extrecircmement vite et nrsquoindiquent pas preacuteciseacutement quelles annotations
ont eacuteteacute ajouteacuteessupprimeacuteesdeacutetruites de leurs donneacutees mais listent simplement les fiches
drsquoannotations qui ont eacuteteacute toucheacutees par une mise agrave jour
326 Panorama des entrepocircts de donneacutees existants en Bioinformatique
A) GUS
Lrsquoentrepocirct GUS (Genomics Unified Schema) (Davidson et al 2001) est le premier grand
entrepocirct de donneacutees biologiques et il est encore agrave lrsquoheure actuelle le plus important GUS
est une plate-forme geacuteneacuterique de gestion de donneacutees sur les organismes modegraveles ou sur les
maladies GUS integravegre des donneacutees tregraves diverses depuis les donneacutees geacutenomiques aux
proteacuteomiques en passant par les donneacutees transcriptomiques Il offre en outre un support
pour lrsquoannotation semi-automatique le nettoyage des donneacutees la fouille de donneacutees et
83
lrsquoanalyse de requecirctes complexes GUS a un scheacutema geacuteneacuterique Il est en effet utiliseacute pour
stocker des donneacutees diverses du geacutenome complet laquo Plasmodb65 raquo (Collaborative
2001) aux donneacutees biomeacutedicales lieacutees au pancreacuteas laquo EPConDB66 raquo (Mazzarelli et al
2007)
Le scheacutema de GUS comporte plus de 180 tables diviseacutees en 5 domaines distincts
(provenance des donneacutees ontologies utiliseacutees pour annoter les donneacutees seacutequences et
annotations donneacutees drsquoexpression donneacutees de reacutegulation des gegravenes) GUS integravegre de
nombreuses sources notamment GenBank UniProt Prodom InterPro GO dbEST et
dbSNP67 Le scheacutema de GUS est constitueacute de lrsquounion des scheacutemas des sources mais il
possegravede aussi un ensemble de tables fortement inteacutegreacutees ougrave les donneacutees sont le reacutesultat
drsquoune seacuterie drsquoalgorithmes qui permettent lrsquounification des instances Une sous-partie des
donneacutees de GUS est donc inteacutegreacutee au niveau seacutemantique Crsquoest lagrave la particulariteacute de GUS
chaque utilisateur peut deacutefinir des traitements sur les donneacutees de lrsquoentrepocirct et choisir de
regrouper les entreacutees de son choix il contribue ainsi un peu plus agrave lrsquointeacutegration verticale
B) GEDAW
Gene Expression DAta Warehouse (Gueacuterin et al 2005) est un entrepocirct de donneacutees
deacuteveloppeacute au sein de lrsquoeacutequipe bioinformatique de lrsquoINSERM U522 (Reacutegulations des
eacutequilibres fonctionnels du foie normal et pathologique) en collaboration avec lrsquoIRISA de
Rennes Il est speacutecialiseacute dans les donneacutees du transcriptome heacutepatique et deacutedieacute agrave lrsquoanalyse
des donneacutees geacuteneacutereacutees par son eacutetude Ces donneacutees sont de natures et drsquoorigines varieacutees
dont une bonne partie se trouve disseacutemineacutee dans des sources biomeacutedicales sur le Web tregraves
disparates (au niveau des contenus et des structures) qursquoil faut inteacutegrer La finaliteacute de
GEDAW est de fournir une aide agrave la deacutecision permettant drsquoorienter les recherches
biologiques La fouille preacutecise des donneacutees expeacuterimentales enrichies par les donneacutees
inteacutegreacutees est destineacutee agrave eacutemettre des hypothegraveses qui vont ainsi guider la recherche sur le foie
GEDAW utilise des techniques drsquointeacutegration agrave partir de sources de donneacutees
structureacutees ou semi-structureacutees uniquement (GenBank au format XML GeneOntology
UMLS et le Transcriptome au format relationnel) GEDAW propose des regravegles de
correspondance pour regrouper plusieurs fiches de GenBank qui deacutecrivent une mecircme
instance biologique en lrsquooccurrence un mecircme gegravene Ces regravegles de correspondance peuvent
ecirctre deacutefinies en utilisant des alignements de seacutequences (si un BLAST entre deux seacutequences
renvoie un fort score de similariteacute alors les deux seacutequences sont relatives au mecircme gegravene)
ou encore en utilisant lrsquoinclusion de seacutequences (la seacutequence contenue dans une fiche est
incluse dans celle contenue dans une autre) Par son expertise le chercheur biologiste peut
lui aussi eacutemettre des regravegles de nettoyage des donneacutees
65
httpplasmodborgplasmo 66
httpwwwcbilupenneduepcondb42 67
httpwwwncbinlmnihgovprojectsSNP
84
Dans GEDAW lrsquointeacutegration se fait donc au niveau des scheacutemas essentiellement les
scheacutemas de GenBank (deacutefinis par des DTDs) mais surtout au niveau des instances elles-
mecircmes avec une inteacutegration horizontale et verticale Dans le premier cas des techniques de
deacutetection des analogies structurelles et des correspondances ont eacuteteacute mises en place afin de
transformer les structures des sources vers une forme canonique (le scheacutema global) Dans
le second cas la reacuteconciliation des donneacutees se fait par regroupement drsquoentreacutees pour
identifier les instances Cette identification se fait donc agrave lrsquoaide de lrsquoexpression de critegraveres
pour faire correspondre les entreacutees et eacuteliminer les redondances et les divergences des
informations
C) BioWarehouse
BioWarehouse (Lee et al 2006) a eacuteteacute conccedilu et deacuteveloppeacute comme un systegraveme de
construction et de gestion drsquoentrepocircts de donneacutees afin de permettre lrsquointeropeacuterabiliteacute de
bases de donneacutees bioinformatiques disparates Les sources deacutefinies agrave la conception de
BioWarehouse sont BioCyc68 CMR69 GenBank KEGG et Uniprot
Lrsquoextraction des donneacutees srsquoeffectue selon la lecture des bases deacutefinies et le
chargement de donneacutees est fait dans la base de BioWareHouse selon le scheacutema global de
lrsquoentrepocirct (conversion des sources en un scheacutema relationnel et selon la seacutemantique de
BioWarehouse) Chaque module de chargement (loader) est speacutecifique agrave la source
correspondante ces modules sont impleacutementeacutes geacuteneacuteralement en C ou en Java Le
chargement des donneacutees dans la base srsquoeffectue sans traitement autre que le respect de la
seacutemantique et du scheacutema global
Le scheacutema drsquointeacutegration de BioWarehouse est deacutefini de faccedilon globale dans un
fichier XML en deux parties La premiegravere partie appeleacutee laquoCOREraquo deacutefinit lrsquoensemble des
donneacutees la seconde partie appeleacutee laquoMAGEraquo est une extension pour geacuterer les annotations
drsquoexpressions geacuteniques Les tables du scheacutema relationnel sont deacutefinies agrave partir de scheacutemas
freacutequemment rencontreacutes en biologie avec une unification des termes utiliseacutes (utilisation
drsquoontologies) ceci permet une inteacutegration de donneacutees de sources diverses chargeacutees agrave partir
de diffeacuterents modules
Lrsquoimpleacutementation de BioWarehouse a eacuteteacute preacutevue pour ecirctre utiliseacutee selon un scheacutema
relationnel et pouvant ecirctre utiliseacute avec des bases relationnelles libres comme MySQL ou
commerciales comme ORACLE
68
httpbiocycorg 69
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
85
D) GenMapper
GenMapper70 (Genetic Mapper) (Do and Rahm 2004) integravegre des donneacutees geacutenomiques
biologiques et meacutedicales provenant de 60 sources de donneacutees dont Entrez Gene Unigene
UniProt GO InterPro KEGG et OMIM
Lrsquoune des caracteacuteristiques de GenMapper est drsquoecirctre baseacute non pas sur un scheacutema
global (de type eacutetoile ou flocon) mais sur un scheacutema geacuteneacuterique appeleacute GAM (Generic
Annotation Management) Ce scheacutema permet une repreacutesentation uniforme de toutes les
donneacutees inteacutegreacutees dans lrsquoentrepocirct En effet le scheacutema repose sur deux classes principales
que sont lsquoSourcersquo et lsquoObjetrsquo ce qui permet de repreacutesenter dans GAM chaque source
comme associeacutee agrave un ensemble drsquoobjets (ou donneacutees contenues dans la source) Ainsi le
systegraveme est particuliegraverement bien adapteacute agrave lrsquoajout de nouvelles sources de donneacutees Le
reacuteseau de cross-reacutefeacuterences existant entre les sources de donneacutees est exploiteacute et contenu
dans le scheacutema GAM
GenMapper propose une interface conviviale de conception de requecircte ougrave
lrsquoutilisateur choisit son ou ses objets agrave analyser (par exemple un ensemble de proteacuteines) Il
choisit ensuite les informations qursquoil souhaite obtenir sur les objets de deacutepart Une vue sur
GAM est geacuteneacutereacutee et fournit agrave lrsquoutilisateur une vision des donneacutees associeacutees agrave ses objets de
deacutepart
GenMapper nrsquointegravegre pas de donneacutees drsquoexpression mais par ses capaciteacutes
drsquoenrichissement de donneacutees il est largement utiliseacute pour lrsquoannotation et la recherche
drsquoinformations sur des groupes de gegravenes diffeacuterentiellement exprimeacutes
E) GEWARE
GeWare71 (Gene Expression Warehouse) (Kirsten et al 2004) est un entrepocirct de donneacutees
qui integravegre des donneacutees drsquoexpression issues des puces agrave ADN Affymetrix des informations
sur les expeacuteriences et des donneacutees sur les gegravenes eacutetudieacutes Il supporte diffeacuterents types
drsquoanalyses telles que le traitement des donneacutees drsquoexpression la visualisation de donneacutees la
creacuteation de groupes de gegravenes et lrsquoanalyse de ces groupes des analyses OLAP
Il est baseacute sur un modegravele multidimensionnel relationnel ougrave la table centrale de faits
correspond aux donneacutees drsquoexpression et ougrave les dimensions correspondent aux annotations
et aux traitements pouvant ecirctre effectueacutes dans lrsquoentrepocirct Les dimensions sont organiseacutees
en hieacuterarchies les analyses OLAP permettent ainsi drsquoeffectuer des opeacuterations de drill-
down et de roll-up pour acceacuteder agrave diffeacuterents niveaux drsquoannotations
GeWare fournit une interface Web servant pour lrsquointeacutegration des donneacutees et les
analyses Le modegravele geacuteneacuterique GAM deacutecrit preacuteceacutedemment dans le systegraveme GenMapper
70
httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame 71
httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
86
est utiliseacute pour capturer les annotations sur les gegravenes eacutetudieacutes dans GeWare les donneacutees
sont ensuite transfeacutereacutees de GAM agrave la dimension concerneacutee de GeWare
4 DISCUSSION
Nous avons discuteacute dans ce deuxiegraveme chapitre les principales architectures issues de la
recherche dans le domaine drsquointeacutegration de donneacutees et qui sont soit des systegravemes
drsquointeacutegration mateacuterialiseacutee ou des systegravemes drsquointeacutegration non mateacuterialiseacutee
Lrsquointeacutegration reacutealiseacutee par ces projets est soit horizontale soit verticale selon que les
donneacutees consideacutereacutees se complegravetent ou se chevauchent Leur speacutecialisation respective les
rend compleacutementaires et aucun ne peut preacutetendre srsquoimposer comme la solution universelle
au problegraveme drsquointeacutegration de donneacutees biologiques Lrsquoutilisateur doit donc faire son choix
en fonction de la complexiteacute du problegraveme qursquoil a agrave traiter
Lrsquoapproche mateacuterialiseacutee ou entrepocirct de donneacutees telle que deacutecrite en section 32
fournit deux avantages majeurs Premiegraverement le fait de stocker les donneacutees en local dans
un scheacutema global facilite lrsquooptimisation et lrsquoexeacutecution des requecirctes Deuxiegravemement les
donneacutees eacutetant disponibles localement lrsquoapproche permet aux utilisateurs drsquoajouter leurs
propres annotations permettant ainsi de modifier de valider etou de nettoyer les donneacutees
inteacutegreacutees il est important de noter que lrsquoentrepocirct de donneacutees est la seule approche
permettant de lutter efficacement contre les donneacutees inconsistantes provenant de
diffeacuterentes sources mais eacutegalement de fournir des moyens drsquoanalyses avanceacutes sur de grands
volumes de donneacutees Ainsi mecircme si la phase drsquointeacutegration est tregraves couteuse lors de la
conception drsquoun entrepocirct de donneacutees ceci est largement compenseacute par les capaciteacutes
drsquoanalyses ulteacuterieures
Les approches non mateacuterialiseacutees de type meacutediation ou navigationnelle sont des
approches tregraves reacutecentes dans le domaine de la bioinformatique Ce sont des approches
conviviales et intuitives qui contrairement agrave lrsquoapproche entrepocirct de donneacutees sont plutocirct
deacutedieacutees agrave des analyses ponctuelles sur de faibles volumes de donneacutees Leur avantage reacuteside
dans le fait drsquointerroger les sources en ligne et donc de disposer de donneacutees agrave jour
Cependant les temps drsquoexeacutecution sont tregraves deacutependants de la disponibiliteacute et de
lrsquoaccessibiliteacute de ces sources externes
La plupart des approches non mateacuterialiseacutees nrsquoeffectuent qursquoune inteacutegration
horizontale des donneacutees en inteacutegrant uniquement des sources de donneacutees compleacutementaires
et rarement chevauchantes En se limitant agrave des sources ayant des informations diffeacuterentes
sur des entiteacutes on limite les capaciteacutes du systegraveme drsquointeacutegration en termes de fiabiliteacute et de
compleacutetude En effet le systegraveme ne peut reacutesoudre les problegravemes lieacutes aux donneacutees absentes
ou contradictoires ni identifier les donneacutees de mauvaise qualiteacute De mecircme le systegraveme ne
87
peut seacutelectionner les sources qui beacuteneacuteficient de meilleurs temps de reacuteponses aux requecirctes et
qui renvoient de meilleurs reacutesultats sur les plans qualitatif et quantitatif En plus lrsquoune des
principaux inconveacutenients de lrsquoapproche de meacutediation est la difficulteacute de construction et de
maintenance du scheacutema global sur lequel srsquoappuie le meacutediateur lrsquoajout ou le retrait drsquoune
source oblige soit agrave le revoir entiegraverement (dans le cas de lrsquoapproche GAV) soit agrave ajouter un
certain nombre de regravegles de correspondance (dans le cas de lrsquoapproche LAV) qui risquent
de compliquer drsquoautant la phase de reacuteeacutecriture de requecirctes
De faccedilon plus geacuteneacuterale les diffeacuterents systegravemes sont caracteacuteriseacutes par le langage ou le
modegravele de donneacutees dans lequel le scheacutema global est exprimeacute Nous avons eacutevalueacute les
avantages et les inconveacutenients de lrsquoutilisation de ces deux architectures pour les donneacutees
biologiques et avons dresseacute un panorama des solutions existantes en informatique en
montrant qursquoelles ont eacuteteacute systeacutematiquement appliqueacutees aux donneacutees biologiques
88
Deacuteuxieacute meacute Partieacute
89
90
CHAPITRE 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes donneacute eacutes deacute Pseacuteudomonas sp
91
Chapitre 3
Utilisation drsquouneacute approcheacute hybrideacute pour lrsquointeacute gration seacute mantiqueacute deacutes
donneacute eacutes deacute Pseacuteudomonas sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 91
2 Vue Global sur le systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 94
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 95
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de PseudmonasDWhellip 97
3 Diffeacuterents module drsquointeacutegration au sein de lrsquoentrepocirct de donneacutees PseudomonasDWhelliphelliphellip 101
31 Scheacutemas de sourcehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 101
32 Services de donneacuteeshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 102
33 Scheacutema Inteacutegrateur du PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 107
34 Correspondances seacutemantiques entre les scheacutemashelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 110 35 SD-Core Genetic Semantic Middleware Components for the Semantic Webhelliphelliphelliphellip 113
36 SB-KOM System Biology Khaos Ontology-based Mediatorhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 115 4 Cas drsquoutilisationhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 117
5 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 123
1 INTRODUCTION
Comme deacutemontreacute en partie introductive de ce manuscrit les donneacutees sont reacuteparties
sur le Web dans une multitude de sources de donneacutees dynamiques et tregraves heacuteteacuterogegravenes Si
depuis quelques anneacutees des efforts ont eacuteteacute fourni par la communauteacute scientifique pour
ameacuteliorer lrsquointeropeacuterabiliteacute entre ces diffeacuterentes sources par la deacutefinition de standards et la
proposition de diffeacuterentes approches drsquointeacutegration la probleacutematique reste entiegravere
Au cours de ce travail de thegravese notre objective a eacuteteacute de fournir une solution
drsquointeacutegration tenant compte des deacutefis mentionneacutes ci-dessus et adapteacutee agrave notre contexte
92
lrsquointeacutegration de donneacutees biologique de Pseudomonas sp Ce travail a eacuteteacute effectueacute dans le cadre
drsquoun projet de collaboration entre le groupe LABIPHABE de la Faculteacute des sciences et
techniques de Tanger et le groupe Khaos de lrsquoeacutecole technique supeacuterieure de lrsquoingeacutenierie en
informatique de lrsquouniversiteacute de malaga Dans ce travail nous avons viseacute agrave deacutevelopper un
entrepocirct de donneacutees nommeacute PseudmonasDW Crsquoest un entrepocirct de donneacutees semi-
structureacute qui integravegre des donneacutees enrichies agrave partir de sources geacutenomiques proteacuteiques
meacutetaboliques et enzymatiques Les donneacutees sont nombreuse et de nature varieacutees il srsquoagit
drsquoinformations sur les seacutequences des gegravenes leurs localisations chromosomiques les
proteacuteines encodeacutees leurs implications dans des fonctions moleacuteculaires et des processus
biologiques leurs implications cliniques leurs niveaux drsquoexpression dans diffeacuterentes
conditions physiopathologiques Ajoutons agrave cela leur apparition croissante dans la
litteacuterature scientifique Nous avons proposeacute une approche hybride qui vise agrave combiner les
avantages des deux approches les plus connues dans le domaine drsquointeacutegration de donneacutees
(i) Lrsquoarchitecture entrepocirct (approche mateacuterialiseacutee) qui est extrecircmement bien adapteacutee agrave
certains besoin du domaine biologique Lrsquoutilisation drsquoun entrepocirct est en effet souvent
motiveacutee par lrsquoun au moins des trois points suivant Premiegraverement certains thegravemes de
recherche imposent une complegravete confidentialiteacute des requecirctes et un controcircle total des
donneacutees ougrave lrsquoaccegraves distribueacute est alors impossible Deuxiegravemement les recherches dans ce
domaine font souvent appel agrave des traitements trop complexes pour tourner sur des
donneacutees non rapatrieacutees localement ou agrave des traitements nouveaux que lrsquoon souhaite tester
sur des donneacutees Troisiegravemement lrsquoarchitecture entrepocirct lorsqursquoune inteacutegration seacutemantique
est effectueacutee permet de nrsquoacceacuteder qursquoagrave des donneacutees nettoyeacutees voire filtreacutes donc plus sucircres
et sur lesquelles on a une valeur ajouteacutee (ii) Le systegraveme meacutediateur (approche virtuelle) qui
est une approche duale dans laquelle les donneacutees restent stockeacutees dans les sources Le
meacutediateur offre un accegraves transparent aux sources en donnant lrsquoillusion qursquoon interroge un
systegraveme centraliseacute Nous avons combineacute les deux approches virtuelle et mateacuterialiseacutee pour
exploiter leurs avantages dans un environnement hybride Drsquoune part lrsquoentrepocirct offre une
bonne performance pour les donneacutees complexes et drsquoautre part la mise agrave jour des donneacutees
peut ecirctre reacutealiseacutee en cas de besoin via le systegraveme meacutediateur
La construction de PseudmonasDW srsquoest deacuterouleacute en plusieurs eacutetapes y compris la
deacutefinition des besoins la conception du modegravele de donneacutees et enfin lrsquointeacutegration des
donneacutees
La deacutefinition des besoins cette eacutetape est preacutealable agrave lrsquoimplantation de tout
nouveau systegraveme drsquoinformation Lrsquoeacutetude des besoins nous a aideacute agrave deacuteterminer le contenu de
PseudmonasDW et son organisation ainsi que les requecirctes que les utilisateurs
formuleront Cette eacutetape est reacutealiseacutee par le biais drsquointerviews aupregraves des futurs utilisateurs
du systegraveme Nous avons chercheacute agrave comprendre et agrave analyser les besoins qui pouvaient ecirctre
exprimeacutes par les biologistes lors du processus drsquointerrogation des sources de donneacutees
publiques Nous avons proceacutedeacute de faccedilon analogue agrave (Stevens et al 2001) qui propose une
eacutetude et une classification des tacircches bioinformatiques effectueacutees dans lrsquoanalyse de donneacutees
93
geacutenomiques et qui recense les requecirctes freacutequemment poseacutees dans lrsquoanalyse de donneacutees
cliniques (Ely et al 2000) Plus particuliegraverement nous avons chercheacute agrave mettre en eacutevidence
pourquoi une source de donneacutees eacutetait interrogeacutee plutocirct qursquoune autre et comment les
sources de donneacutees eacutetaient interrogeacutees Les interviews nous ont permis de recenser les
donneacutees agrave eacutetudier et dans quelles dimensions Ensuite ces interviews nous ont aideacute agrave
identifier les sources requises pour lrsquointeacutegration de donneacutees souhaiteacutees
La conception du modegravele de donneacutees Lrsquoambition de PseudomonasDW est
drsquointeacutegrer un ensemble de donneacutees provenant de sources varieacutees via un modegravele global de
donneacutees (voir section 21) La pertinence du systegraveme en termes de reacuteponses aux requecirctes
reposes alors entiegraverement sur la pertinence de ce modegravele Pour reacutealiser notre modegravele global
de donneacutees ou le scheacutema inteacutegrateur de lrsquoentrepocirct nous avons agreacutegeacute les donneacutees
provenant des diffeacuterentes sources Ainsi des efforts ont eacuteteacute fournis pour
Respecter la fiabiliteacute de lrsquoinformation
Respecter la coheacuterence des informations une mecircme donneacutees pouvant
provenir de deux sources diffeacuterentes il faut alors choisir la plus
judicieuse
Assurer la consolidation des informations crsquoest-agrave-dire deacutefinir de
maniegravere unique une donneacutee
Unifier la repreacutesentation des donneacutees
Veacuterifier la non-redondance des informations
Lrsquointeacutegration des donneacutees crsquoest la proceacutedure qui nous a permis de transformer
les donneacutees des sources externes vers PseudmonasDW en les adaptant En geacuteneacuteral
lrsquointeacutegration de donneacutees au niveau drsquoun entrepocirct est diviseacutee en quatre eacutetapes qui sont (i)
lrsquoextraction des donneacutees des sources Cela consiste de collecter les donneacutees utiles des
sources originales (ii) La transformation des donneacutees aux niveaux syntaxique et
seacutemantique Cette eacutetape permet de transformer reformater et nettoyer les donneacutees afin
drsquoeacuteliminer les donneacutees non conforme au modegravele de destination et drsquoeacuteviter les doublons et
autres incoheacuterences (iii) Lrsquointeacutegration des donneacutees et enfin (iv) le stockage local des
donneacutees inteacutegreacutees dans lrsquoentrepocirct Il faut noter que cette deacutecomposition est seulement
logique Dans PseudmonasDW lrsquoeacutetape drsquoextraction et une partie de lrsquoeacutetape de
transformation ont eacuteteacute groupeacutees dans le mecircme composant logiciel appeleacute lsquoservice de
donneacuteesrsquo (ou service Web) Une partie de lrsquoeacutetape de transformation et lrsquoeacutetape drsquointeacutegration
ont eacuteteacute reacutealiseacutees via le systegraveme meacutediateur SB-KOM (System Biology Khaos Ontology-
based Mediator)(Navas-Delgado and Aldana-Montes 2009) Lrsquoeacutetape de stockage a eacuteteacute
effectueacutee automatiquement en se basant sur quelques API (Application Programming
Interface) de java
94
2 VUE GLOBAL SUR LE SYSTEME PSEUDOMONASDW
Comme nous avons deacutejagrave deacutecrit PseudmonasDW (Pseudomonas Data Warehouse) est
un entrepocirct de donneacutees semi structureacute qui permet lrsquointeacutegration des donneacutees biologiques de
lrsquoespegravece Pseudomonas PseudomonasDW fournie des outils pour analyse des donneacutees
inteacutegreacutees afin de mettre en eacutevidence des correacutelations entre les informations eacutetudies
Lrsquoenvironnement regroupe au sein drsquoun seul et mecircme modegravele de donneacutees (scheacutema
inteacutegrateur) les instances provenant de ressources geacutenomiques proteacuteiques enzymatiques et
meacutetaboliques Les instances du modegravele sont ensuite interrogeacutees par diffeacuterentes APIs qui
nous sommes anteacuterieurement deacuteveloppeacutees (voir section 32)
Drsquoapregraves Inmon laquo Lrsquoentrepocirct de donneacutees nrsquoest pas un produit ou un logiciel mais un
environnement Il ne srsquoachet pas il se bacirctit raquo (Inmon 2002) On distingue deux maniegraveres de
construire un systegraveme drsquointeacutegration top-down (Inmon 2002) ougrave lrsquoon part de lrsquoinformation
souhaiteacutee pour ensuite chercher les sources pouvant reacutepondre aux besoins ou bottom-up ougrave
lrsquoon part de la volonteacute drsquointeacutegrer plusieurs sources de donneacutees (Kimball 2003) Ainsi dans
les approches top-down les scheacutemas des sources importent peu pour la conception du
scheacutema global Ils seront seulement pris en compte dans un second temps quand les
correspondances entre le scheacutema global et les scheacutemas des sources seront eacutetablies pour
permettre lrsquoexeacutecution de requecirctes Dans lrsquoapproche bottom-up il faut noter que le scheacutema
global fournisse une vue concilieacutee des diffeacuterentes sources impliquant une bonne
connaissance au preacutealable des scheacutemas des sources de donneacutees Pour concevoir
PseudmonasDW nous avons utiliseacute un processus drsquointeacutegration qualifieacute ascendant (bottom-
up) ougrave nous sommes drsquoabord partis du besoin de repreacutesenter au sein drsquoun mecircme scheacutema
telles et telles donneacutees pour ensuite choisir les sources de donneacutees ainsi que les processus
drsquointeacutegration approprieacutes Par cette approche nous relions de maniegravere coheacuterente les
donneacutees geacutenomiques avec les donneacutees enzymatiques et celles meacutetaboliques tout en
assurant la reacuteconciliation des donneacutees autour de la nomenclature des gegravenes La
combinaison des informations de plusieurs sources de donneacutees et des disciplines multiples
permet une inteacutegration forte et systeacutematique facilite la compreacutehension des processus
cellulaire et par conseacutequence conduit agrave une preacutediction des nouveaux comportements
cellulaire
21 Sources de donneacutees inteacutegreacutees dans PseudmonasDW
Plusieurs sources de donneacutees pourraient ecirctre utiliseacutees pour creacuteer un entrepocirct de donneacutees
comme PseudmonasDW Dans la version actuelle PseudmonasDW integravegre cinq bases
de donneacutees Ces bases de donneacutees ont eacuteteacute seacutelectionneacutees pour leurs proprieacuteteacutes de contenu et
de structuration les plus approprieacutes pour lrsquoeacutetude de Pseudmonas sp nous pouvons les
95
diviser en trois types 1) bases de donneacutees geacutenomique et proteacuteique 2) bases de donneacutees
meacutetabolique et 3) bases de donneacutees enzymatique Une inteacutegration forte des donneacutees du
niveau geacutenomique jusqursquoagrave niveau meacutetabolique rend possible la reacuteponse aux interrogations
complexes poseacutees par les chercheurs Nous montrerons dans cette section pour chaque
source de donneacutees sa provenance son contenu et sa structure
211 Bases de donneacutees geacutenomique et proteacuteique
PseudomonasDW offre une varieacuteteacute des donneacutees geacutenomiques telle que lrsquoannotation du
gegravene et de proteacuteine gegravene de reacutegulation expression geacutenique (Gene expression) et une
collection des facteurs de transcription Ces donneacutees sont extraites agrave partir de trois bases de
donneacutees
GenBank crsquoest une base de donneacutees avec un accegraves libre Elle est consideacutereacutee
comme une collection drsquoannotation pour toutes les seacutequences nucleacuteiques qui sont
publiquement disponible ainsi que leurs seacutequences peptidiques (Benson et al
2011) Cette base de donneacutees est produite au sein de NCBI (National Center for
Biotechnology Information) comme une partie de la collaboration internationale
des bases de donneacutees des seacutequences nucleacuteotidiques (INSDC Internatinal
Nucleotide Sequence Database Collaboration) GenBank et ses collaborateurs
reccediloivent les seacutequences produites dans les laboratoires de recherche pour plus de
380 000 organismes Elle est accessible via le systegraveme de NCBI Entrez qui integravegre
des donneacutees de grandes bases de donneacutees de seacutequences drsquoADN et de proteacuteines
avec la taxonomie le geacutenome le mappage la structure et les domaines
drsquoinformation de la proteacuteine et la litteacuterature via le journal biomeacutedical PubMed
GenBank est une des premiegraveres banques de donneacutees qui ont proposeacute le format
XML pour preacutesenter leurs enregistrements avec une DTD bien deacutefinie pour
speacutecifier la structure et la terminologie du domaine pour leurs enregistrements des
gegravenes et des seacutequences soumises
Uniprot (base de donneacutees universelle de proteacuteines) est la plus grande des bases de
donneacutees informatique pour les proteacuteines de tous les organismes vivants et les virus
(Consortium 2010) Elle fournit des informations sur la fonction des proteacuteines
leur structure ainsi que des liens vers dautres bases de donneacutees Elle combine les
donneacutees de Swiss-Prot TrEMBL et Protein Information Resource (PIR) et elle est
met agrave jour reacuteguliegraverement Ses donneacutees reposent sur le serveur ExPASy72 de lInstitut
suisse de bioinformatique Uniprot contient 534242 seacutequences entiegraveres contenant
189454791 acides amineacutes extraites de 206707 reacutefeacuterences73 Uniprot offre les
donneacutees en format HTML XML et Fasta
72
httpexpasyorg 73 Release 2012_01 of 25-Jan-12 gtgt httpwebexpasyorgdocsrelnotesrelstathtml
96
PRODORIC74 est un acronyme de PROcariotIC Database Of Gene-Regulation
Cette base de donneacutees est baseacutee sur une approche inteacutegreacutee elle fournit des
informations sur les reacuteseaux moleacuteculaires chez les procaryotes avec un accent sur
les organismes pathogegravene (Muumlnch et al 2003) Actuellement PRODORIC
contient principalement des informations deacutetailleacutees sur les structures des opeacuterons
et des promoteurs y compris une eacutenorme collection des sites de liaisons et de
facteurs de transcription Aussi qursquoun nombre approprieacute des sites de liaison
reacutegulateurs est disponible et une matrice du poids de position (position weight
matrix) est fourni Ces donneacutees sont recueillies manuellement par le deacutepistage de la
litteacuterature scientifique originale PRODORIC offre un service web pour acceacuteder agrave
plusieurs parties de la base de donneacutees Les utilisateurs peuvent acceacuteder agrave lrsquoAPI du
serveur du PRODORIC par la technologie SOAP via le protocole HTTP en
utilisant un langage informatique speacutecifique de leur choix Le serveur SOAP fournit
eacutegalement un fichier WSDL (Web Service Description Language Cela permet aux
utilisateurs dinteacutegrer dynamiquement des requecirctes de PRODORIC dans leurs
propres programmes
212 Bases de donneacutees meacutetaboliques
KEGG est une encyclopeacutedie des gegravenes et des geacutenomes elle a eacuteteacute lanceacutee par le programme
humain japonais de geacutenome en 1995 (Minoru 1997) Selon ses reacutealisateurs KEGG est
consideacutereacutee comme eacutetant une laquo repreacutesentation dordinateur raquo du systegraveme biologique
(Kanehisa et al) KEGG relie les informations connues au-dessus des reacuteseaux
moleacuteculaires comme les voies et les complexes (cest la base de donneacutees des voies) les
informations sur des gegravenes et proteacuteines produit par des projets de geacutenome (base de
donneacutees des gegravenes) et les informations sur les composeacutes biochimiques et les reacuteactions
(bases de donneacutees des reacuteactions) Ces bases de donneacutees sont des diffeacuterents reacuteseaux connus
respectivement sous les noms de reacuteseau de pathways lunivers de gegravenes et lunivers
chimique
Dans notre cas nous nous sommes inteacuteresseacutes que par la base de donneacutees des voies
(KEGG PATHWAY) qui offre des voies meacutetaboliques et quelques autre processus
cellulaires Nous avons acceacutedeacute au serveur API du KEGG par le biais de la technologie du
SOAP via le protocole HTTP Le serveur SOAP est accompagneacute drsquoun fichier WSDL qui
facilite la construction drsquoune bibliothegraveque client pour un langage informatique speacutecifique
Cela nous a permis drsquoeacutecrire notre propre programme et drsquoautomatiser la proceacutedure
drsquoaccession au serveur API du KEGG et finalement drsquoobtenir les reacutesultats souhaiteacutes
(Kanehisa et al)
74
httpwwwprodoricde
97
213 Bases de donneacutees Enzymatique
PseudomonasDW offre des donneacutees enzymatiques extraites de la base de donneacutees
enzymatique BRENDA (Chang et al 2009) Cette base de donneacutees repreacutesente la
collection principale des informations concernant la fonctionnaliteacute des enzymes disponibles
agrave la communieacute scientifique Elle est disponible gratuitement via internet et aussi comme
une base de donneacutees interne pour les utilisateurs commerciaux BRENDA est maintenue et
deacuteveloppeacutee agrave lrsquoinstitut de biochimie et de bioinformatique au sein de lrsquouniversiteacute technique
de Braunschweing en Allemagne Les donneacutees sur la fonction enzymatique sont extraites
directement de la litteacuterature primaire par des scientifiques titulaires drsquoun diplocircme en
biologie ou en chimie Les veacuterifications formelles et de coheacuterence sont effectueacutees par des
programmes informatiques chaque ensemble de donneacutees sur une enzyme classeacutee est
veacuterifieacutee manuellement par au moins un biologiste et un chimiste
Le contenu de BRENDA couvre des informations sur la fonction la structure
loccurrence la preacuteparation et lapplication denzymes Les outils drsquoanalyse et de gestion des
donneacutees ont eacuteteacute mises en œuvre pour ameacuteliorer le traitement la preacutesentation la saisie et
lrsquoaccegraves aux donneacutees BRENDA offre deacutesormais de nouvelles options daffichage telles que
laffichage des paramegravetres fonctionnels la vue 3D de la seacutequence de proteacuteines et des
caracteacuteristiques de la structure
22 Architecture de lrsquointeacutegration des donneacutees biologiques au sein de
PseudmonasDW
Drsquoune communauteacute agrave lrsquoautre lrsquoentrepocirct est une architecture dans laquelle les donneacutees sont
plus ou moins structureacutees ainsi que plus ou moins historiseacutees On trouve dans la
litteacuterature(Calvanese et al 1998) la distinction de deux approches dans la construction
drsquoentrepocircts respectivement appeleacutees approches proceacutedurale et deacuteclarative
Dans lrsquoapproche proceacutedurale les donneacutees sont inteacutegreacutees de faccedilon ad-
hoc sans chercher agrave construire un scheacutema inteacutegrateur Dans le cas ougrave
aucune structure ni aucun historique ne sont imposeacutees aux donneacutees on
parlera plus souvent de la notion de deacutepocirct de donneacutees (ou data repository)
que drsquoentrepocirct de donneacutees (ou data warehouse)
Dans lrsquoapproche deacuteclarative (Calvanese et al 1998) la structuration des
donneacutees de lrsquoentrepocirct se fait gracircce agrave son scheacutema global ou scheacutema
inteacutegrateur Le modegravele dans lequel le scheacutema global est deacutefini deacutetermine
le langage de requecirctes utiliseacute pour interroger lrsquoentrepocirct
98
Pour PseudomonasDW nous avons choisi lrsquoapproche deacuteclarative qui malgreacute sa
complexiteacute reste majoritairement suivie Lrsquoapproche deacuteclarative nous a motiveacute agrave reacutealiser
notre contribution en faisant appel au systegraveme meacutediateur et lrsquoarchitecture entrepocirct pour
une inteacutegration hybride et forte au sein drsquoun scheacutema global Ce scheacutema regroupe les
instances provenant des diverses sources inteacutegreacutees et nous a garanti un eacutechange de donneacutees
drsquoune faccedilon compreacutehensible Le systegraveme meacutediateur que nous avons utiliseacute SB-KOM
(System Biolgy Ontology-based Mediator)(Navas-Delgado and Aldana-Montes 2009) est
baseacute sur une infrastructure nommeacutee KOMF (Chniber and Kerzazi 2008) Le KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutees aux ressources Cette infrastructure est baseacutee sur un middleware
nommeacute lsquoSD-Corersquo (Navas-Delgado and Aldana-Montes 2009) Une description deacutetailleacutee de
cette infrastructure est preacutesenteacutee dans la section 3 KOMF a eacuteteacute instancieacute avec succegraves dans
le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des sources de donneacutees biologiques
qui sont accessible via le web (Briache et al 2012)
Dans cette section nous deacutecrivons lrsquoarchitecture geacuteneacuterale du notre entrepocirct de
donneacutees PseudmonasDW est composeacute de plusieurs composants indeacutependamment
impleacutementeacutes et jouent des rocircles diffeacuterents et compleacutementaires dans le processus de
lrsquointeacutegration de donneacutees La Figure 18 montre une repreacutesentation scheacutematique de
lrsquoarchitecture du systegraveme
La couche de sources repreacutesente la base du systegraveme et elle constitue le point drsquoaccegraves
aux bases des donneacutees KEGG (Kanehisa et al 2006) BRENDA (Chang et al 2009)
Uniprot (Consortium 2010) GenBank (Benson et al 2011) et PRODORIC (Muumlnch et al
2003)
Derriegravere le systegraveme entrepocirct de donneacutees se place toute la logistique pour eacutetablir un
flux de donneacutees entre PseudmonasDW et les bases de donneacutees inteacutegreacutees Cela srsquoest
acheveacute via le processus ETL (Extract-Transform-Load) (Thomas and Stefan 2008) Il srsquoagit
drsquoune technologie informatique intergicielle (comprendre middleware) permettant
drsquoeffectuer des synchronisations massives drsquoinformation drsquoune base de donneacutees vers une
autre Ce processus repose sur des connecteurs servant agrave exporter ou importer les donneacutees
dans les applications des transformateurs qui manipulent les donneacutees et des mises en
correspondance (mappages) Notre objective de lrsquoutilisation du processus ETL est
lrsquointeacutegration et la reacuteexportation de donneacutees des sources originales dans PseudmonasDW
Dans le systegraveme PseudmonasDW les bases de donneacutees publiques sont
uniformeacutement acceacutedeacutees et interrogeacutees par le meacutediateur SB-KOM (System Biology Khaos
Ontology-based Mediator) (Navas-Delgado and Aldana-Montes 2009) Le meacutediateur offre
des interfaces drsquoadaptateurs pour les sources de donneacutees et aussi transforme les donneacutees
dans un modegravele de donneacutees commun utiliseacute par SB-KOM Le systegraveme PseudmonasDW
est constitueacute drsquoun ensemble des services de donneacutees (un service de donneacutees pour chaque
source de donneacutees) qui encapsulent la fonctionnaliteacute des adaptateurs Ces derniers
99
occupent une partie tregraves importante dans les eacuteleacutements internes des services de donneacutees Un
adaptateur reccediloit une requecirctes XQuery agrave partir du SB-KOM la transforme en une requecircte
approprieacutee agrave la source de donneacutees qui le convient performe tous les traitements
suppleacutementaires et retourne un document XML au meacutediateur Le rocircle du service de
donneacutees est de permettre agrave lrsquoadministrateur de PseudmonasDW drsquoutiliser les
fonctionnaliteacutes des adaptateurs pour interroger et extraire les informations solliciteacutees agrave
partir des sources de donneacutees via leurs pages web ou le meacutecanisme FTP
Le SB-KOM utilise les ontologies comme des scheacutemas inteacutegrateurs dans le but de
performer la reacuteeacutecriture des requecirctes et par conseacutequence lrsquoactivation de la fonctionnaliteacute de
lrsquoeacutetape de transformation Autrement dit les reacuteponses des requecirctes XQuery ndash mateacuterialiseacutees
au niveau des documents XML - sont envoyeacutees agrave SB-KOM qui les transforme et les
combine en une instance du scheacutema inteacutegrateur (ou scheacutema global) Les reacutesultats finaux
obtenus sont donc chargeacutes au niveau de lrsquoentrepocirct de donneacutees et fournis aux utilisateurs au
format HTML
Dans ce contexte le processus ETL (Extract-Transform-Load) srsquoinitialise par
lrsquointervention de lrsquoadministrateur du PseudmonasDW Ce dernier choisit lrsquoinformation
qursquoil souhaite extraire puis seacutelectionne lrsquoespegravece agrave stocker dans lrsquoentrepocirct de donneacutees
Ensuite le systegraveme extrait automatiquement toutes les donneacutees souhaiteacutees par le biais des
services web Finalement le systegraveme transforme les donneacutees extraites en un format
commun en utilisant les diffeacuterents composants de SB-KOM Notre proposition est drsquoutiliser
une ontologie pour lrsquointeacutegration de donneacutees ougrave chaque source de donneacutees est relieacutee avec le
scheacutema global par des regravegles de correspondances deacutefinies (mappings)
Le stockage de donneacutees dans PseudmonasDW se fait drsquoune maniegravere intergicielle
en utilisant quelques bibliothegraveques de Java (Exemple Jena75 et Java DOM76) Nous avons
aussi utiliseacutes eXist77 qui nous a permis de stocker automatiquement nos donneacutees dans un
entrepocirct de donneacutees XML natif Une description deacutetailleacutee de diffeacuterents composants du
systegraveme est citeacute dans la section suivante
75
httpjenaapacheorg 76
httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml 77
httpexistsourceforgenet
100
Figure 18 Les diffeacuterentes couches constituant le systegraveme PseudomonasDW
101
3 DIFFERENTS MODULE DrsquoINTEGRATION AU SEIN DE
LrsquoENTREPOT DE DONNEES PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacute dans les paragraphes preacuteceacutedents nos objectifs dans
cette thegravese sont (i) lrsquoinclusion de donneacutees geacutenomiques de haut deacutebit (ii) lrsquointeacutegration de
plusieurs sources de donneacutees en utilisant une approche hybride permettant lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique au sein drsquoun entrepocirct de donneacutees (iii)
le maintien de donneacutees de PseudmonasDW agrave jours avec celles des bases de donneacutees
drsquoorigine
En geacuteneacuterale lrsquointeacutegration de donneacutees dans PseudomonasDW a eacuteteacute effectueacutee selon
deux niveaux le premier niveau est lrsquointeacutegration syntaxique qui consiste agrave extraire les
donneacutees de sources originales et les transformer en un modegravele uniforme (XML) utiliseacute par
SB-KOM Nous avons choisi XML ndashautrement dit XML XML schema et XQuery- comme
un modegravele de donneacutees commun Le deuxiegraveme niveau drsquointeacutegration est appeleacute inteacutegration
seacutemantique qui consiste agrave convertir les donneacutees extraites en terme du scheacutema global du
PseudomonasDW en creacuteant des regravegles de correspondance entre chaque scheacutema de source
et celui de lrsquoentrepocirct PseudomonasDW a un ensemble de modules qui deacutepend fortement
agrave des technologies de XML et de web seacutemantique Dans ce qui suit nous donnons une
description deacutetailleacutee sur les diffeacuterents composants de PseudomonasDW
31 Scheacutemas de source
La modeacutelisation des connaissances du domaine dapplication de PseudomonasDW
constitue la pierre angulaire pour linteacutegration efficace de donneacutees Pour cela une eacutetude
deacutetailleacutee des sources a eacuteteacute effectueacutee dans le but deacutetablir une terminologie standard pour
deacutecrire les donneacutees Chaque source de donneacutees a eacuteteacute modeacuteliseacutee par un scheacutema exporteacute
Un scheacutema est un ensemble drsquoeacuteleacutements connecteacutes par une certaine structure En
pratique il existe diffeacuterentes repreacutesentations qui sont le modegravele relationnel le modegravele
orienteacute objet ou le XML Dans chacune des repreacutesentations on distingue des eacuteleacutements et
des structures les entiteacutes et les relations dans le modegravele relationnel les objets et les
relations dans le modegravele orienteacute objet et les eacuteleacutements et les sous-eacuteleacutements dans le XML
Comme une premiegravere eacutetape dans la construction de PseudmonasDW nous avons
creacuteeacute un scheacutema XML pour chaque source de donneacutees (Figure 19) Ces scheacutemas sont
consideacutereacutes comme des modegraveles qui deacutecrivent les donneacutees et leur organisation dans les
sources de donneacutees Ils deacutefinissent la structure sous laquelle les reacutesultats seront retourneacutes
102
de services de donneacutees Les scheacutemas de sources nous ont permis drsquoavoir une ideacutee globale
sur les diffeacuterentes donneacutees qui seront repreacutesenteacutees sur le scheacutema inteacutegrateur de lrsquoentrepocirct
Figure 19 Un fragument repreacutesentatif du scheacutema XML de la source de donneacutees BRENDA
32 Services de donneacutees
Il est bien connu qursquoun adaptateur est une interface pour interroger les sources de donneacutees
et transformer les donneacutees en un modegravele de donneacutees utiliseacute par le systegraveme drsquointeacutegration
(Levy 1999) Puisque le but de PseudomonasDW est drsquointeacutegrer des bases de donneacutees
accessibles via le protocole web il est complegravetement normal qursquoun adaptateur est consideacutereacute
comme le composant le plus important dans lrsquoarchitecture du systegraveme Nous avons
deacuteveloppeacute cinq adaptateurs seacutemantiques chacun pour une base de donneacutees Nous pouvons
deacutefinir lrsquoadaptateur seacutemantique comme un adaptateur qui peut geacuterer les connaissances du
Web
Nous avons proposeacute drsquoameacuteliorer le processus de lrsquoimpleacutementation des adaptateurs
en les publiant comme des services Web (service de donneacutees dans notre cas) qui peuvent
ecirctre reacuteutiliseacutes par autres systegravemes drsquointeacutegrations Les services Web permettent lrsquoinvocation
de fonctions distantes preacutesentes sur des systegravemes distribueacutes et heacuteteacuterogegravenes gracircce au
protocole HTTP et agrave XML Selon (Kadima and Monfor 2003) laquo les services Web sont des
103
applications auto-descriptives modulaires et faiblement coupleacutees qui fournissent un
modegravele de programmation et de deacuteploiement drsquoapplications baseacute sur des normes et
srsquoexeacutecutent au travers de lrsquoinfrastructure Web raquo Et selon (Zimmermann et al 2006) laquo un
service est un composant applicatif mis agrave la disposition sur un reacuteseau et disposant de
meacutethodes que lrsquoon peut invoquer agrave distance via lrsquoemploi de protocoles standard Les
services Web preacutesentent lrsquoavantage drsquoecirctre faiblement coupleacutes indeacutependants des plateformes
et reacuteutilisables raquo
Le but des services de donneacutees est de permettre agrave PsudomonasDW drsquoacceacuteder agrave la
fonctionnaliteacute des adaptateurs Dans ce contexte nous avons conccedilu une architecture
adaptative avec laquelle nous avons pu deacutefinir un service de donneacutees comme laquoun service
Web qui offre des fonctionnaliteacutes drsquointerrogation par les adaptateurs en utilisant le
protocole Web raquo
321 Architecture du service de donneacutees dans PseudmonasDW
Dans cette section nous preacutesentons notre architecture du service de donneacutees (Figure 20)
Elle inclut un ensemble drsquooutils qui nous a aideacute agrave extraire les donneacutees de Pseudomonas sp de
diffeacuterentes sources de donneacutees
Figure 20 Repreacutesentation scheacutematique de larchitecture du service de donneacutees dans le systegraveme PseudmonesDW
Ce type de service utilise un processus bidimensionnel (1) pour acceacuteder aux
sources de donneacutees en utilisant lrsquoadaptateur qui traite une requecircte et retourne un document
104
XML (2) pour lrsquoexportation de fonctionnaliteacutes drsquointerrogations par lrsquoadaptateur et sa
seacutemantique comme un service web La seacutemantique du service Web inclut des informations
sur le scheacutema de la source et la provenance de donneacutees Cette derniegravere est neacutecessaire dans
le domaine de la bioinformatique dont il est tregraves important de savoir quelle source de
donneacutees a eacuteteacute utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Dans ce contexte en plus de
service de requecircte de lrsquoadaptateur le service de donneacutees enveloppe une API (Application
Programming Interface)
LrsquoAPI constitue le point drsquoaccegraves agrave la fonctionnaliteacute du service Web Elle publie trois
meacutethodes Query() qui soumit la requecircte XQuery agrave lrsquoadaptateur et retourne un document
XML La structure du ce document doit satisfait les contraintes du scheacutema de la source
Les deux autres meacutethodes getschema() et getDataprovenance() permissent lrsquoaccegraves aux
meacutetadonneacutees stockeacutees dans le service Web La meacutethode getschema() retourne le scheacutema
XML de la source de donneacutees et la meacutethode getDataprovenance() fournit des informations sur
la base de donneacutees interrogeacutees (par exemple le nom de la base de donneacutees)
Derriegravere le service Web il y a une speacuteciale classe java qui traite lrsquoappelle aux
diffeacuterentes meacutethodes Cette classe srsquoappelle la classe Service qui est un composant
geacuteneacuterique conccedilu pour deacutefinir les trois diffeacuterentes meacutethodes qui reccediloivent lrsquoappelle au
service Web La partie importante de la classe Service est de tenir la correspondance entre
la requecircte XQuery (Hunter 2003) et le langage de requecircte sous-jacent de la source de
donneacutees Autrement dit la classe service est responsable de mettre des correspondances
entre les paramegravetres de la requecircte XQuery et les paramegravetres de la source de donneacutees
322 Impleacutementation du service de donneacutees dans PseudmonasDW
Pour publier nos services de donneacutees comme des services Web nous avons utiliseacute Apache
Tomcat78 comme un serveur drsquoapplication et Axis79 comme une plateforme pour preacutesenter
le Web service La premiegravere eacutetape dans la publication du service web eacutetait la copie de tous
les fichiers des classes java qui nous avons programmeacute les bibliothegraveques utiliseacutees et le
fichier descripteur de deacuteploiement dans le reacutepertoire WEB-INF du reacutepertoire racine du
service de donneacutees (Figure 21) Le descripteur de deacuteploiement est un fichier nommeacute
webxml qui contient tous les caracteacuteristiques et les paramegravetres du web service
78
httptomcatapacheorg 79
httpwsapacheorgaxisoverviewhtml
105
Figure 21 Premiegravere eacutetape de deacuteploiment du service Web
La deuxiegraveme eacutetape du deacuteploiement du service web eacutetait la creacuteation du fichier
deploywsdd dans le mecircme dossier que le webxml Ce fichier contient lrsquoensemble des
proprieacuteteacutes de deacuteploiement du notre service Web qui ont eacuteteacute exprimeacutees par lrsquoeacuteleacutement
ltservicegt (Figure 22)
Figure 22 Deuxiegraveme eacutetape de deacuteploiement du service Web
Les attributs de lrsquoeacuteleacutement ltservicegt deacutefinissent les caracteacuteristiques principales du service Web dont
Lrsquoattribut name indique le nom du service web
Lrsquoattribut provider deacutefinit le type de fournisseur de service qui eacutetait utiliseacute
pour reacutealiser lrsquoimpleacutementation du service Web Nous avons utiliseacute le provider
106
Java RPC qui permet drsquoexposer une classe Java quelconque en tant que
service Web
Le restant des proprieacuteteacutes du service Web a eacuteteacute deacutefini par le biais drsquoeacuteleacutements
ltparametergt qui deacutefinissent le nom et la valeur de diffeacuterentes proprieacuteteacutes
Le paramegravetre className a eacuteteacute utiliseacute pour speacutecifier le nom complet de la
classe drsquoimpleacutementation Java du service La valeur de ce paramegravetre est le
chemin vers la classe java compileacutee associeacutee au service Web (nous referons
ici agrave la classe Service)
Le paramegravetre allowedMethod a eacuteteacute utiliseacute pour deacutefinir la liste des meacutethodes
exposeacutees par le service Web La valeur speacuteciale indique que nous avons
exposeacutes toutes les meacutethodes du serveur Web
La derniegravere eacutetape de deacuteploiement du service Web eacutetait la deacuteclaration du service
dans le fichier de configuration du serveur Pour cela nous avons utiliseacute lrsquooutil
drsquoadministration drsquoAxis AdminClient auquel nous avons fournis en paramegravetre le descripteur
de deacuteploiement du service via la commande suivante
java -classpath AXISCLASSPATH orgapacheaxisclientAdminClient deploywsdd
-httphostnameportnumberwebServiceFolderNameservicesAdminService
Cette opeacuteration nous a permis de mettre agrave jours le fichier TomcatwebappsService
WebWEB-INFserver-configwsdd La veacuterification du bon deacuteploiement du service Web a eacuteteacute
effectueacutee par la saisie de la direction lsquohttphostnameportnumber
webserviceNameServicesrsquo dans la barre drsquoadresse du navigateur Cela nous a permis
drsquoobtenir les deacutefeacuterentes meacutethodes deacutefinies dans le service Web (Figure 23)
Figure 23 Capture deacutecran de differentes meacutethodes du service Web agravepregraves deacuteploiement
107
33 Scheacutema Inteacutegrateur du PseudmonasDW
Comme nous avons mentionneacute avant PseudomonasDW vise agrave inteacutegrer un ensemble de
sources de donneacutees biologiques heacuteteacuterogegravenes dans un seul systegraveme Dans lrsquoapproche
deacuteclarative (Calvanese et al 1998) suivie dans ce travail la structuration des donneacutees de
lrsquoentrepocirct se fait gracircce au scheacutema global Le scheacutema inteacutegrateur (global) peut inteacutegrer les
donneacutees agrave diffeacuterents niveaux Nous pouvons distinguer lrsquointeacutegration syntaxique qui a eacuteteacute
effectueacutee par les services de donneacutees et consiste agrave convertir lrsquoensemble des donneacutees des
sources dans le modegravele choisi pour lrsquoentrepocirct Agrave cette eacutetape le scheacutema global de lrsquoentrepocirct
est constitueacute de lrsquounion des scheacutemas des sources Si les sources offrent chacune des
informations sur des entiteacutes diffeacuterentes cette inteacutegration est suffisante pour nrsquoavoir aucune
redondance au niveau du scheacutema inteacutegrateur
Neacuteanmoins PseudomonasDW integravegre des sources de donneacutees offrant des
informations chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour
identifier des objets eacutequivalents drsquoun point de vue seacutemantique crsquoest-agrave-dire nous avons
appliqueacute une inteacutegration seacutemantique pour supprimer toute redondance au niveau du
scheacutema de lrsquoentrepocirct Lrsquointeacutegration seacutemantique est fondeacutee sur la construction drsquoun scheacutema
global inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
laquo Le scheacutema global correspond agrave la description des relations entre toutes les
donneacutees partageacutees dans le systegraveme sans aucune description de leur impleacutementation ou de
leur stockage physique il garantit un eacutechange de donneacutees drsquoune faccedilon compreacutehensible raquo
(King et al 2008)
En geacuteneacuteral la mise en œuvre drsquoun systegraveme inteacutegrateur de donneacutees exige la
deacutetermination de la maniegravere par laquelle le scheacutema global sera speacutecifieacute (par exemple quel
modegravele de donneacutees doit ecirctre adopteacute et quel type de contraintes sur les donneacutees peut ecirctre
exprimeacute) Pour PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
(voir chapitre 2) Notre propose est drsquoutiliser une ontologie (PseudomonasDW
Ontology) comme un scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la
reacuteconciliation de tous les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
(Figure 24)
108
Figure 24 Quelques conceptes de lontologie de domaine de PseudomonasDW
Dans le contexte du Web seacutemantique lrsquoontologie de domaine est utiliseacutee comme un
scheacutema pour lrsquointeacutegration de donneacutees Le principe drsquoun tel scheacutema est de fournir une
interface unique pour lrsquointerrogation de sources de donneacutees heacuteteacuterogegravenes Pratiquement une
ontologie de domaine est plus geacuteneacuterale et seacutemantiquement plus riche qursquoun simple scheacutema
conceptuel
Une ontologie de domaine est une laquo description intentionnelle de ce qui nous
connaissons autour de lrsquoessence des entiteacutes drsquoun domaine particulier en utilisant des
concepts et des relations entre ces conceptsraquo (Sun and Liu 2006) Lrsquoontologie de domaine
de PseudomonasDW organise sous forme drsquoune hieacuterarchie les connaissances sur notre
domaine en regroupant les entiteacutes du domaine en sous cateacutegories suivant ses
caracteacuteristiques Notre ontologie de domaine est principalement utiliseacutee comme une
terminologie pour la description explicite et coheacuterente de nos donneacutees Elle assure
lrsquoencapsulation seacutemantique des sources de donneacutees en deacutefinissant la hieacuterarchie de concepts
Elle est consideacutereacutee comme une classification de toutes les entiteacutes biologiques manipuleacutees
par lrsquoentrepocirct Lrsquoontologie de PseudmonasDW repreacutesente un modegravele de connaissance qui
modeacutelise des connaissances biologiques et bioinformatique dans un cadre conceptuel
simple limiteacute par des relations parent-enfant de type lsquoisArsquo Lrsquoenfant est une classe qui
repreacutesente un sous-ensemble des eacuteleacutements du parent chaque enfant heacuterite toutes les
proprieacuteteacutes de son parent en plus des siennes speacutecifiques Les concepts de lrsquoontologie
109
peuvent ecirctre classeacutes en deux cateacutegories la cateacutegorie des concepts biologiques et la
cateacutegorie des concepts relieacutes aux sources de donneacutees
Les concepts biologiques repreacutesentent toutes les classes qui modeacutelisent les
entiteacutes biologiques (par exemple les classes gene genome protein
enzymehellip)
Les concepts relieacutes aux sources de donneacutees sont repreacutesenteacutes par des classes
reacutefeacuterant directement aux sources de donneacutees Nous citons comme exemple
le concept Source qui repreacutesente les sources biologique inteacutegreacutees dans
lrsquoentrepocirct et le concept Entry qui repreacutesente les entreacutees dans les sources de
donneacutees originales Ce type de concept a un rocircle tregraves important pour garder
les traces de donneacutees dans PseudmonasDW
Pour des informations seacutemantiques additionnelles lrsquoontologie deacutefinie deux types de
proprieacuteteacutes (i) proprieacuteteacutes des objets (object properties) qui repreacutesentent les relations entre les
individus drsquoune ou deux classes diffeacuterentes (ii) proprieacuteteacutes des types de donneacutees (datatype
properties) qui relient un individu avec des types de donneacutees Lrsquoontologie de
PseudmonasDW contient 110 classes 79 proprieacuteteacutes des types de donneacutees et 44 proprieacuteteacutes
des objets
Pour mieux illustrer le rocircle des proprieacuteteacutes dans la transmission de la seacutemantique au
niveau de lrsquoontologie nous deacutetaillons un exemple du monde reacuteel (Figure 25) dont les
eacuteclipses repreacutesentent les concepts les flegraveches continues repreacutesentent les proprieacuteteacutes des
objets alors que les flegraveches discontinues repreacutesentent les proprieacuteteacutes des types de donneacutees
Le gegravene algU code pour la proteacuteine lsquoRNA polymerase sigma-H factorrsquo qui est un facteur
drsquoinitiation qui promeuve lrsquoattachement de lrsquoARN polymeacuterase agrave des sites drsquoinitiation
speacutecifiques (Martin et al 1993) Ce facteur sigma reacutegule des gegravenes comme algD (code
pour la proteacuteine lsquoGDP-mannose 6-dehydrogenasersquo) qui est impliqueacute dans la synthegravese drsquoalginate
(Roychoudhury et al 1992)
Les deux gegravenes algU et algD codent respectivement au reacutegulateur lsquoRNA polymerase
sigma-H factorrsquo et lrsquoenzyme lsquoGDP-mannose 6-dehydrogenasersquo
algU reacutegule le gegravene algD
Les gegravenes algU et algD codent pour des proteacuteines ayant respectivement les mecircmes
abreacuteviations que leurs gegravenes
Le reacutegulateur a le nom lsquoSigma-30rsquo comme un nom alternatif
Lrsquoenzyme agrave un numeacutero de classification enzymatique qui eacutegale agrave 111132
110
Figure 25 Repreacutesentation scheacutematique de lexemple traiteacute dans cette section Il montre quatre conceptes biologiques (eacuteclipses) lieacutees par des proprieacuteteacutes dobjet (dlegraveches rouges) deux relation parent-enfant (flegraveches bleues) et deux proprieacuteteacutes de donneacutees (flegraveches vertes)
A partir de cet exemple nous pouvons deacuteduire
Quatre concepts lsquoGenersquo lsquoProteinrsquo lsquoRegulatorrsquo et lsquoEnzymersquo
Trois proprieacuteteacutes drsquoobjets lsquocodeforrsquo et son inverse lsquocodedByrsquo qui relient les deux
concepts lsquoGenersquo et lsquoProteinrsquo plus la proprieacuteteacute lsquoRegulatesrsquo qui relie lsquoRegulatorrsquo au lsquoGenersquo
Trois proprieacuteteacutes des types de donneacutees lsquohasShortNamersquo pour les deux concepts
lsquoRegulatorrsquo et lsquoEnzymersquo lsquohasAlternativeNamersquo pour le concept lsquoRegulatorrsquo et enfin lsquohasEcrsquo
pour le concept lsquoEnzymersquo
Les deux concepts lsquoRegulatorrsquo et lsquoEnzymersquo sont consideacutereacutes comme des enfants du
concept lsquoProteinrsquo
Dans PseudmonasDW nous avons choisi OWL comme un langage drsquoontologie
standard Pour ecirctre plus preacutecis nous avons utiliseacute OWL-Lite (qui un sous langage de
OWL) parce que nous avons envisageacute degraves le deacutepart de deacutevelopper une simple ontologie de
domaine qui preacutesente une simple hieacuterarchie des concepts
34 Correspondances seacutemantiques entre les scheacutemas
En plus de la modeacutelisation de lrsquoontologie et des scheacutemas de sources nous avons eu besoin
drsquoeacutetablir des associations entre les diffeacuterents concepts de lrsquoontologie et les eacuteleacutements
approprieacutes qui repreacutesentent lrsquoinformation dans les sources de donneacutees Lrsquoeacutetablissement de
ces correspondances seacutemantiques est une tacircche difficile Elle constitue actuellement une
111
des eacutetapes les plus coucircteuses lors du deacuteveloppement drsquoun systegraveme drsquointeacutegration de donneacutees
(Toumani et al 2007)
Comme nous avons deacutejagrave citeacute nous avons utiliseacute lrsquoapproche GAV (Global-As
View) qui exige que le scheacutema global de lrsquoentrepocirct doive ecirctre exprimeacute en termes des
sources de donneacutees Cela signifie que chaque concept et proprieacuteteacute de lrsquoontologie repreacutesente
une vue deacutefinie en termes de diffeacuterents eacuteleacutements des sources de donneacutees Cette vue
deacutetermine la maniegravere drsquoobtenir des instances du scheacutema inteacutegrateur agrave partir des sources de
donneacutees
Les associations entre les concepts de lrsquoontologie et les eacuteleacutements des scheacutemas de
sources (Figure 26) sont mateacuterialiseacutees au sein de PseudomonasDW par des regravegles de
correspondance (mappings) Ces regravegles sont utiliseacutees pour permettre la transmission de
donneacutees en termes de lrsquoontologie de systegraveme Dans ce contexte les regravegles de mappings que
nous avons utiliseacutees sont deacutefinies comme un pair (PQ) dont
Figure 26 Associations entre les concepts de lrsquoontologie de domaine de PseudomonasDW et les eacuteleacutements dune partie du scheacutema XML de la source de donneacutees BRENDA
P est une ou un couple drsquoexpressions du chemin exprimeacutees en XPath
Q est une requecircte conjonctive exprimeacutee en termes des concepts de lrsquoontologie
En geacuteneacuterale nous avons deacutefinie trois types de mappings
112
Mapping des Classes ce type de mappings deacutefinie des associations entre les
classes de lrsquoontologie et les scheacutemas de sources Ce type de mapping srsquoeacutecrit de la maniegravere
suivante
XPath-Element-Location Ontology-Class-Name correspondence-
index
Le fragment lsquoXPath-Element-Locationrsquo repreacutesente la position drsquoun eacuteleacutement
du scheacutema drsquoune source exprimeacutee en XPath Le fragment lsquoOntology-Class-Namersquo
repreacutesente le nom de la classe correspondante au niveau de lrsquoontologie La partie
lsquocorrespondence-indexrsquo est un indice repreacutesenteacute par un nombre entier qui deacutetermine
la justesse de lrsquoinstance du mapping Dans PseudomonasDW cet indice eacutegale toujours agrave
100 puisque toutes les associations sont faites manuellement Ci-dissus un exemple de
mapping qui associe les classes lsquoEnzymersquo et lsquoKMrsquo avec leurs correspondants dans le scheacutema
du BRENDA
ResultEnzymeEnzyme100
ResultEnzymeFunctional_ParameterKMKM100
Mapping des proprieacuteteacutes de type de donneacutees ce type de mapping associe les
proprieacuteteacutes de type de donneacutees au niveau de lrsquoontologie avec les scheacutemas de sources Il
srsquoeacutecrie comme suit
XPath-Domain-Location XPath-value-Location Ontology-Domain-
Name Property-Name correspondence-index
Le fragment lsquoXPath-Domain-Locationrsquo deacutecrit le chemin vers un eacuteleacutement du
scheacutema qui est associeacute avec le domaine de la proprieacuteteacute de type de donneacutees Le fragment
lsquoXPath-value-Locationrsquo repreacutesente lrsquoeacuteleacutement dont la proprieacuteteacute a eu la valeur de son
rang Les deux fragments lsquoOntology-Domain-Namersquo et lsquoProperty-Namersquo repreacutesentent
respectivement le domaine et la valeur de la proprieacuteteacute Lrsquoexemple suivant concerne la
proprieacuteteacute de type de donneacutees lsquohasValuersquo
ResultEnzymeFunctional_ParameterKMResultEnzymeFunctional
_ParameterKMKM_ValueKMhasValue100
ResultEnzymeFunctional_ParameterpH_OptimumResultEnzymeFu
nctional_ParameterpH_OptimumpH_Optimum_ValuepH_OPTIMUMhasVal
ue100
Mapping des proprieties drsquoobjets ce type de mapping associe les proprieacuteteacutes
drsquoobjets au niveau de lrsquoontologie avec les scheacutemas de sources Il srsquoeacutecrie de la maniegravere
suivante
113
XPath-Domain-Location XPath-Range-Location Ontology-Domain-
Name Ontology-Range-Name Property-Name correspondence-index
Les deux fragments lsquoXPath-Domain-Locationrsquo et lsquoXPath-Range-Locationrsquo
deacutecrivent les chemins des deux eacuteleacutements qui correspondent au domaine et le rang de la
proprieacuteteacute drsquoobjet au niveau du scheacutema Les deux fragments lsquoOntology-Domain-Namersquo
et lsquoOntology-Range-Namersquo repreacutesentent respectivement le domaine et le rang au niveau
de lrsquoontologie Le fragment lsquoProperty-Namersquo correspond au nom de la proprieacuteteacute drsquoobjet
Lrsquoexemple suivant montre comment la proprieacuteteacute drsquoobjet lsquohasFunctionalParameterrsquo est associeacutee
au scheacutema de source
ResultEnzymeResultEnzymeFunctional_ParameterEnzymeFuncti
onal_ParameterhasFunctionalParameter100
35 SD-Core Genetic Semantic Middleware Components for the Semantic Web
Le rocircle essentiel drsquoun middleware est de geacuterer la complexiteacute et lrsquoheacuteteacuterogeacuteneacuteiteacute des
infrastructures distribueacutees Drsquoune part le middleware offre des abstractions de
programmation qui cachent certains des complexiteacutes du deacuteveloppement drsquoune application
distribueacutee Drsquoautre part une infrastructure drsquoun logiciel complexe est neacutecessaire pour
mettre en œuvre ces abstractions Autrement dit au lieu qursquoun programmeur doive traiter
tous les aspects drsquoune application distribueacutee le middleware peut srsquooccuper de certains
drsquoentre eux
Dans ce contexte nous avons utiliseacute un middleware preacuteceacutedemment deacuteveloppeacute par
le groupe khaos (Navas-Delgado 2008) pour profiter de ses composants dans lrsquointeacutegration
de donneacutees de Pseudomonas sp dans notre entrepocirct Lrsquoinfrastructure de ce middleware est
baseacutee sur un reacutepertoire de ressource lsquoresource directoryrsquo nommeacute SD-Core (Semantic
Directory Core) le groupe Khaos a deacutefini le SD-Core comme laquo un ensemble drsquoeacuteleacutements de
base pour construire des applications de Web seacutemantique il est disponible en tant que
serveur pour enregistrer la seacutemantique fournie par les services drsquointerrogations et aussi pour
consulter toutes les seacutemantiques enregistreacutees raquo (Navas-Delgado and Aldana-Montes 2008)
Lrsquoutilisation de SD-Core nous a offert la moyenne de lrsquointeropeacuterabiliteacute seacutemantique avec le
meacutediateur SB-KOM Dans le but de bien deacutefinir les eacuteleacutements internes du reacutepertoire
seacutemantique (Semantic Directory)
Ainsi le SD-Core est composeacute de deux ontologies inter-relieacutees OMV (Hartmann et
al 2005) et SDMO qui deacutecrivent les seacutemantiques internes du reacutepertoire seacutemantique(Figure
27) OMV enregistre des informations additionnelles sur les ontologies alors que SDMO
est lrsquoontologie qui se charge de lrsquoenregistrement des informations sur les ressources les
relations entre ces ressources ainsi que les ontologies enregistreacutees dans OMV
114
Figure 27 Les diffeacuterentes interfaces et ontologies constutiant le SD-Core
Le SD-Core est composeacute de trois interfaces qui regroupent un ensemble minimum
des eacuteleacutements pour construire un grand nombre drsquoapplications pour le Web Seacutemantique
Lrsquointerface de reacutepertoire des meacutetadonneacutees de lrsquoontologie est une interface qui offre diffeacuterents
types drsquoaccegraves aux informations relieacutees aux ontologies enregistreacutees au niveau de SD-Core
Les meacutethodes suivantes repreacutesentent quelques-unes de celles fournies par le middleware
pour enregistrer et consulter les ontologies registerOntology(urlname) getOntology(name)
getOntology( url) listOntologies() and listOntologies(concept)
Lrsquointerface du registre seacutemantique se charge par les ressources relatives aux ontologies
enregistreacutees au niveau du SD-Core Lors de lrsquoenregistrement des ressources les
impleacutementations de lrsquointerface geacutenegraverent une instance de SDMO qui contient les
correspondances (mappings) entre le scheacutema de cette ressource et les ontologies
enregistreacutees au niveau du SD-Core Cette interface offre des meacutethodes qui permettent aux
utilisateurs drsquoenregistrer des ressources ainsi que ses mappings (exemple registerResource(
serviceName url queryMethod schemaMethod))
Lrsquointerface du reacutepertoire des meacutetadonneacutees de la ressource est consideacutereacutee comme une interface
drsquoaccegraves aux informations des ressources via des meacutethodes deacutefinies
Le SD-Core offre une interface web (Figure 28) qui nous a permis drsquoacceacuteder aux
diffeacuterentes fonctionnaliteacutes du Middleware et drsquoenregistrer notre ontologie de domaine nos
services de donneacutees ainsi que les scheacutemas de sources et les mappings Cette eacutetape nous a
permis drsquoenregistrer notre seacutemantique et toutes les informations neacutecessaires pour les rendre
disponibles pour le meacutediateur SB-KOM dans le but de parser eacutecrire planifier optimiser et
115
solutionner les requecirctes provenantes de lrsquoadministrateur du PseudmonasDW (plus de
deacutetail dans la section 36)
Figure 28 Linterface Web SD-Core qui permet laccegraves aux fonctionaliteacutes du Middelware et lenregistrement de la seacutemantique neacutecessaires pour le meacutediateur SB-KOM
36 SB-KOM System Biology Khaos Ontology-based Mediator
Pour inteacutegrer les donneacutees de Pseudomonas dans notre entrepocirct nous avons viseacute agrave utiliser un
systegraveme meacutediateur preacuteceacutedemment deacuteveloppeacute par le groupe khaos Ce meacutediateur nommeacute
SB-KOM (System Biolgy Ontology-based Mediator) (Navas-Delgado and Aldana-Montes
2009) qui est baseacute sur le KOMF (Chniber and Kerzazi 2008) KOMF est une
infrastructure geacuteneacuterique pour enregistrer et geacuterer les ontologies leurs relations et les
informations relieacutee aux ressources Cette infrastructure est baseacutee sur le SD-Core KOMF a
eacuteteacute instancieacute avec succegraves dans le contexte de la biologie moleacuteculaire pour lrsquointeacutegration des
sources de donneacutees biologiques qui sont accessible via le web Le meacutediateur SB-KOM est
composeacute de trois principaux composants le controcircleur le planificateur de requecirctes et
lrsquoeacutevaluateurinteacutegrateur
Le controcircleur reccediloit des requecirctes du lrsquoadministrateur du PseudmonasDW et
coordonne les autres composants du meacutediateur pour eacutevaluer ces requecirctes et obtenir des
116
reacutesultats Le controcircleur creacutee des fils pour les diffeacuterentes requecirctes de PseudmonasDW et
assume le rocircle drsquoun middleware entre les autres composants du SB-KOM Les requecirctes
provenant de lrsquoadministrateur de lrsquoentrepocirct sont exprimeacutees comme des preacutedicats
conjonctifs (Hillebrand et al 1995) avec trois types principaux de preacutedicat les classes en
terme de lrsquoontologie de domaine enregistreacutee au niveau de SD-Core les proprieacuteteacutes de type
de donneacutees qui relient les individus aux valeurs lateacuterales et les proprieacuteteacutes drsquoobjets qui relient
les individus entre eux Les reacutesultats de ces requecirctes sont des instances de lrsquoontologie de
domaine
Le planificateur de requecirctes est un des pilleacutees les plus importantes pour lrsquoeacutelaboration des
plans de requecirctes pour traiter les requecirctes soumises par PseudmonasDW Les plans
geacuteneacutereacutes par ce composant deacuteterminent quelles sources de donneacutees doivent ecirctre utiliseacutees
pour extraire les informations souhaiteacutees et dans quel ordre doivent ecirctre interrogeacutees
Selon la requecircte conjonctive soumise par lrsquoadministrateur de PseudomonasDW il
y aura diffeacuterents types de mappings au niveau du SD-Core Les classes de lrsquoontologie de
domaine de PseudmonasDW seront connecteacutees agrave XPath drsquoun ou plusieurs eacuteleacutements des
scheacutemas XML des sources de donneacutees Drsquoautre part les proprieacuteteacutes de types de donneacutees
seront connecteacutees agrave deux expressions la premiegravere correspond agrave la classe et la deuxiegraveme
correspond agrave la proprieacuteteacute Les proprieacuteteacutes drsquoobjet seront lieacutees aux classes dont leurs XPath
sont actives dans la proprieacuteteacute
Le planificateur de requecirctes srsquoexeacutecute selon un algorithme simple qui reccediloit une requecircte
conjonctive exprimeacutee en termes de lrsquoontologie de PseudmonasDW (une conjonction de
concepts et de proprieacuteteacutes) et retourne un ensemble des plans possibles sous forme drsquoarbres
Les eacutetapes de lrsquoalgorithme sont eacutenumeacutereacutees en-dessous
1 Distribuer tous les preacutedicats de la requecircte (concepts et proprieacuteteacutes) en deux
groupes en se basant sur le nombre drsquoarguments G1 contient les preacutedicats
ayant un argument (les concepts) et G2 contient les preacutedicats ayant deux
arguments (les proprieacuteteacutes)
2 Construire GS un ensemble de combinaisons entre les deux groupes en se
basant sur le nombre drsquoarguments ajouter tous les eacuteleacutements de G1 et G2 agrave
cet ensemble et eacuteliminer les eacuteleacutements reacutepeacuteteacutes
3 Eliminer les eacuteleacutements de GS qui nrsquoont pas une repreacutesentation dans les
mapping enregistreacutees au niveau de SD-Core
4 Elaborer un plan sous forme drsquoarbre pour chaque variable instancieacute dans les
arguments preacutedicats
a La variable instancieacutee constitue le nœud racine
b Les eacuteleacutements qui contiennent un preacutedicat speacutecifiant une valeur pour
la variable instancieacutee et les eacuteleacutements qui ne contiennent que la
variable instancieacutee (sans les autres variables) seront passeacutes au nœud
courant et eacutelimineacutes de GS
117
c Les eacuteleacutements qui contiennent une autre variable en plus de celle
instancieacutee constitueront les arcs entre le nœud actuel et drsquoautres
nouveaux et seront eacutelimineacutes de GS Les nouveaux nœuds creacutees
seront repreacutesenteacutes par drsquoautres variables qui seront des variables
instancieacutees
d Srsquoil y a encore des eacuteleacutements dans GS continuer dans lrsquoeacutetape 4b pour
chaque nouvelle variable instancieacutee
LrsquoeacutevaluateurInteacutegrateur est le troisiegraveme composant du SB-KOM il analyse le plan de
requecircte (QP) et performe des appels correspondantes aux services de donneacutees impliqueacutes
dans les sous requecirctes (SQ1hellipSQn) du plan QP Pour reacutepondre agrave la requecircte de
lrsquoadministrateur de PseudomonasDW ce composant exeacutecute les services de donneacutees dans
lrsquoordre speacutecifieacute au niveau du plan QP Ensuite les adaptateurs extraient les donneacutees
souhaiteacutees de sources originales et retournent des documents XML Lrsquointeacutegrateur construit
des instances (des modegraveles RDF) agrave partir des reacutesultats des services de donneacutees en utilisant
les mappings Ces instance ne sont pas connecteacutees entre elles parce qursquoelles proviennent de
services de donneacutees diffeacuterents Afin drsquoobtenir des instances associeacutees lrsquointeacutegrateur eacutetablie
des relations entre elles en utilisant les proprieacuteteacutes drsquoobjets deacutefinis dans lrsquoontologie de
domaine et qui sont repreacutesenteacutees comme des relations entre les services dans le plan de
requecircte Finalement ces instances associeacutees sont filtreacutees afin drsquoeacuteliminer les informations
inutiles
4 PROCESSUS ETL DANS PSEUDOMONASDW
Dans cette section nous traitons un exemple avec lequel nous essayons drsquoexpliquer
comment interviennent les diffeacuterents composants de PseudmonasDW dans le processus
drsquoETL (Extraction Transformation and loading) Cet exemple traite une requecircte soumise
par lrsquoadministrateur de lrsquoentrepocirct Nous prenons comme exemple la requecircte conjonctive
suivante envoyeacutee par lrsquoadministrateur de lrsquoentrepocirct
Ans(PEOGPW)-
Protein(P)hasPrteinName(PProteinName)ForOrganism(PO)Enzym
e(E)IsEnzyme(PE)Organism(O)hasOrganismName(OOrganismName)
ForOrganism(EO)Gene(G)CodedBy(PG)PathWay(PW)ParticipateIn
(PPW)
Cette requecircte a pour but de chercher des informations sur une proteacuteine nommeacutee
lsquoProteinNamersquo (exemple Acetyl-coenzyme A carboxylase carboxyl transferase subunit alpha) pour un
organisme appeleacute lsquoOrganismNamersquo (Pseudomonas fluorescens (strain Pf-5)) Avec la soumission de
cette requecircte lrsquoadministrateur cherche des informations concernant la proteacuteine les voies
118
meacutetaboliques dans lesquelles intervient cette proteacuteine lrsquoenzyme qui la corresponde et des
donneacutees sur le gegravene qui code pour elle
Cette requecircte conjonctive inclue trois types de preacutedicats principaux Classes en
terme de lrsquoontologie de PseudomonasDW exemple de Protein(P) des proprieacuteteacutes de type de
donneacutees qui relie les individus avec des valeurs lateacuterales exemple de hasProteinName (P
Value) qui relie la proteacuteine avec son nom et finalement les proprieacuteteacutes drsquoobjet qui relient
les individus entre eux comme isEneyme(PE) En geacuteneacuteral cette requecircte est composeacutee de
cinq classes (Protein Organism Enzyme Gene et Pathway) deux proprieacuteteacutes de types de
donneacutees (hasproteinName et hasOrganismName) et quatre proprieacuteteacutes drsquoobjects (ForOrganism
IsEnzyme CodedBy et ParticipateIn) (Figure 29)
Figure 29 Un scheacutema repreacutesentatif du fragment de lontologie qui intervient dans la formulation de la requecircte XQuery les classes sont repreacutesenteacutees en bleu les proprieacuteteacutes dobjet sont repreacutesenteacutees en orange et les proprieacuteteacutes de donneacutees sont repreacutesenteacutees en vert les regravegles de correspondances entre les scheacutemas des sources et lontologie de domaine sont eacutecrites en haut des eacuteleacutements de lontologie en rouge
La requecircte retourne les instances de la classe proteacuteine qui a le nom ProteinName et
qui sont relieacutees aux
Organism par le biais de la relation ForOrganism
Pathway par la relation ParticipateIn
Enzyme par le biais de la relation IsEnzyme Cette enzyme est relieacutee aussi
agrave la classe Organism par la relation ForOrganism
Gene par la relation CodedBy
Comme une eacutetape anteacuterieure la requecircte conjonctive est envoyeacutee au SB-KOM Une
fois la requecircte est reccedilue au niveau du controcircleur une demande sera envoyeacutee au
planificateur de la requecircte Ce composant utilise son algorithme baseacute sur les preacutedicats de la
119
requecircte et les regravegles de correspondance enregistreacutees au niveau du reacutepertoire seacutemantique
lsquoSD-Corersquo Cet algorithme va geacuteneacuterer un ensemble de sous-requecirctes et aussi un plan
drsquoexeacutecution Les preacutedicats de la requecircte conjonctive sont diviseacutes en deux types un
ensemble qui contient les preacutedicats ayant un seul argument et un autre qui contient les
preacutedicats ayant plus qursquoun argument Les preacutedicats qui ont des arguments communs et
appartiennent aux deux ensembles sont ensuite regroupeacutes dans des groupes repreacutesenteacutes par
la combinaison de deux ou plusieurs preacutedicats Les groupes qui ne sont pas repreacutesenteacutes par
le mapping enregistreacute au niveau du SD-Core sont eacutelimineacutes Toutes les sous-requecirctes
possibles geacuteneacutereacutees par le controcircleur sont repreacutesenteacutees dans la Table 3
A partir de cet ensemble de sous-requecirctes le planificateur va essayer de construire
des arbres potentiels de lrsquoordre drsquoexeacutecution Il seacutelectionne les groupes qui ont des variables
instancieacutees pour deacutefinir la racine de lrsquoarbre Lrsquoordre de lrsquoexeacutecution du plan deacutepend aux
variables instancieacutees les groupes ayant des variables instancieacutees sont les premiers agrave
exeacutecuter ensuite les groupes qui sont relieacutes agrave ces variables et ainsi de suite jusqursquoagrave
lrsquoexeacutecutions de tous les groupes Dans notre cas G1 et G7 sont seacutelectionneacutes G7 ne peut
pas jouer le rocircle drsquoun nœud racine parce qursquoil nrsquoy a aucun group qui lui deacutepend
Contrairement agrave G1 qui peut servir comme racine et par conseacutequent sera le premier groupe
agrave exeacutecuter (Figure 30) G1 et agrave pregraves son exeacutecution renvoie des informations relatives agrave la
proteacuteine (P) du G8 Ensuite G2 G3 G4 et G5 sont exeacutecuteacutes en parallegravele parce qursquoils
deacutependent aux variables instancieacutees de G1 A partir de ses exeacutecutions simultaneacutees
lrsquoalgorithme va deacuteterminer tous les objets relieacutes agrave la proteacuteine (P) par les relations
ForOrganism CodedBy ParticipateIn et IsEnzyme Une fois ces objets sont obtenus
lrsquoalgorithme va exeacutecuter les groupes G9 G10 G11 et G12 Puisque le groupe G6 deacutepend
au groupe G12 ils seront exeacutecuteacute agrave la fois pour obtenir des instances de lrsquoEnzyme (E)
Figure 30 Le plan de requecircte du lexemple preacuteceacutedemment deacutecrit Chaque noeud et arc contient des informations pour acceacuteder aux services de donneacutees
120
Table3 Les diffeacuterents groups intervenant dans la construction du plan de requecircte
Groupe Sous-requecircte Service de Donneacutees
G1 Protein (P) hasName Uniprot G2 ForOrganism (PO) KEGG G3 CodedBy (PG) Genbank G4 ParticipateIn (PPW) KEGG G5 IsEnzyme (PE) BRENDA G6 ForOrganism (EO) BRENDA G7 Organism (O) hasOrganismName Uniprot G8 Protein (P) Uniprot G9 Organism (O) BRENDA KEGG G10 Gene (G) Genbank G11 Pathway (PW) KEGG G12 Enzyme (E) BRENDA
Les arcs de lrsquoarbre de planification sont repreacutesenteacutes par les proprieacuteteacutes drsquoobjets alors
que les nœuds repreacutesentent les concepts de lrsquoontologie (Figure 30) Chaque arc et chaque
nœud contiennent toutes les informations neacutecessaires pour lrsquoexeacutecution des sous-requecirctes
par le composant eacutevaluateurlrsquointeacutegrateur Ces informations se composent de la sous-
requecircte (eacutelaboreacutee agrave partir du mapping) exprimeacutee en XQuery et correspond au nœud ou agrave
lrsquoarc du plan le nom et la direction du service de donneacutees agrave exeacutecuter
Les services de donneacutees de PseudmonasDW sont exeacutecuteacutes par le composant
Evaluateurlrsquointeacutegrateur en suivant le plan drsquoexeacutecution geacuteneacutereacute par le planificateur Pour
notre cas le service de donneacutees de lsquoUniprotrsquo reccediloit la premiegravere sous-requecircte parce que la
proprieacuteteacute de type de donneacutees hasProteinName est mappeacute au scheacutema XML de Uniprot Le
nom du gegravene codant pour lsquoAcetyl-coenzyme A carboxylase transferase subunit alpharsquo le numeacutero de
classification drsquoenzyme (Ec number) relatif agrave la proteacuteine les noms des vois meacutetaboliques
dans lesquelles elle participe sont obtenus comme une reacuteponse de la sousndashrequecircte La sous-
requecircte CodedBy est utiliseacutee pour deacutefinir les instances du lsquoGenersquo Cette fois le service de
donneacutees du GenBank est impliqueacute parce que la proprieacuteteacute drsquoobjet lsquoCodedByrsquo est mappeacutee
avec le scheacutema XML de Genbank La sous-requecircte lsquoParticipateInrsquo est utiliseacutee pour chercher
les instances de lsquoPathwayrsquo Dans ce cas le service de donneacutees de KEGG est exeacutecuteacute parce
que la proprieacuteteacute drsquoobjet lsquoParticipateInrsquo est mappeacute avec le scheacutema XML de KEGG Aussi le
service de donneacutees de KEGG est impliqueacute en exeacutecutant la sous-requecircte ForOrganism(PO)
parce que la proprieacuteteacute drsquoobjet correspondante est mappeacutee avec le scheacutema XML de KEGG
Lrsquoexeacutecution du service de donneacutees de BRENDA se fait par lrsquoutilisation de deux arguments
(le numeacutero de classification drsquoenzyme et le nom de lrsquoorganisme Pour cela les sous-requecirctes
lsquoIsEnzymersquo et lsquoForOrganismrsquo sont utiliseacutees agrave la fois pour obtenir des instances de lsquoEnzymersquo
A chaque exeacutecution les services de donneacutees interrogent les sources de donneacutees
extraient les donneacutees souhaiteacutees et retournent des documents XML Ces reacutesultats sont des
instances des scheacutemas XML des sources sous-jacentes Le composant
Evaluateurinteacutegrateur reccediloit ses instances des scheacutemas XML et en se basant sur les regravegles
121
de correspondances entre les eacuteleacutements des scheacutemas de sources et lrsquoontologie de domaine
enregistreacutes au niveau du SD-Core les transforme en des instances de notre ontologie de
domaine exprimeacutees en RDF Ces instances ne sont pas connecteacutees entre elles parce qursquoelles
sont produites de services de donneacutees diffeacuterents Afin de les associer
lrsquoEvaluateurInteacutegrateur eacutetablie des relations entre les services de donneacutees (deacutefinis au
niveau du plan de requecircte) et les proprieacuteteacutes drsquoobjets deacutefinies au niveau de lrsquoontologie de
domaine Finalement ces instances inter-relieacutees sont filtreacutees par le composant
EvaluateurInteacutegrateur pour eacuteliminer toutes les informations inutiles Le dernier reacutesultat
obtenu est une instance de lrsquoontologie de PseudmonasDW contenant toutes les donneacutees
extraites des sources de donneacutees inteacutegreacutees (Figure 31) Cette instance finale est
automatiquement transformeacutee en un document XML par lrsquousage de quelques librairies java
(exemple Jena et Java DOM) Lrsquoeacutetape de stockage a eacuteteacute reacutealiseacutee automatiquement via eXist-
db ougrave nous avons chargeacute tous les documents XML obtenus dans un entrepocirct de donneacutees
XML natif pour ecirctre interrogeacutes via une interface utilisateur Cette eacutetape de stockage de
donneacutees sera bien deacutetailleacutee dans la section 3 du chapitre 4
Figure 31 Une partie de linstance RDF de lontologie de domaine obtenue comme reacutesultat final de leacutetape ETL au sein de systegraveme PseudomonasDW
122
Pour reacutesumer nous pouvons dire que la premiegravere eacutetape du processus ETL
(Extraction) a eacuteteacute reacutealiseacutee en utilisant les services de donneacutees pour extraire les donneacutees
souhaiteacutees agrave partir des sources originaux Lrsquoeacutetape de transformation a eacuteteacute partageacutee entre les
services de donneacutees et le meacutediateur SB-KOM Les services de donneacutees srsquooccupent par la
transformation de donneacutees en format XML et le meacutediateur SB-KOM transforme les
instances des scheacutemas de sources en des instances exprimeacutees en RDF afin de les inteacutegrer
dans une seule instance de lrsquoontologie de domaine en eacuteliminant les redondances La
derniegravere eacutetape du processus (Loading) a eacuteteacute reacutealiseacutee par lrsquoutilisation de eXist qui nous a
permis de stocker automatiquement les donneacutees dans un entrepocirct de donneacutees XML natif
(Marrakchi et al 2010) La Figure 32 illustre toutes les eacutetapes du processus drsquoETL au sein
de PseudmonasDW
Figure 32 Repreacutesentation scheacutematique du processus ETL (A) repreacutesente leacutetape deacutextraction de donneacutees (B) repreacutesente leacutetape de transformation de donneacutees et (C) repreacutesente leacutetape de chargement de donneacutees au sei de PseudmonasDW
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
123
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
5 DISCUSSION ET CONCLUSION
Lrsquoapproche entrepocirct de donneacutees est neacutee dans lrsquoentreprise dans les secteurs concurrentiels
du commerce et du marketing Lrsquointeacuterecirct de lrsquoutilisation drsquoune telle approche en
bioinformatique srsquoest vite fait sentir En effet les atouts lieacutes au stockage local de donneacutees et
donc agrave lrsquooptimisation de requecircte sont tregraves adapteacutes aux larges volumes de donneacutees qui
caracteacuterisent les donneacutees biologiques
Cependant mettre en œuvre une approche entrepocirct de donneacutees pour geacuterer et
analyser des donneacutees biologiques est une tacircche complexe La nature des donneacutees que lrsquoon
doit inteacutegrer est tregraves diffeacuterente de celle des donneacutees drsquoentreprise Les donneacutees ne sont plus
quantitatives mais souvent qualitatives elles sont tregraves nombreuses et diverses elles sont
pour la plupart reacuteparties sur le Web dans des sources indeacutependantes et tregraves dynamiques
caracteacuteriseacutees par une grande heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique
De ce fait les eacutetapes de construction de lrsquoentrepocirct nrsquoen deviennent que plus
complexes incluant la modeacutelisation des donneacutees biologiques ainsi que la mise en œuvre de
processus drsquointeacutegration geacuterant la forte heacuteteacuterogeacuteneacuteiteacute
La contrepartie de tous ces efforts crsquoest la bonne qualiteacute de donneacutees ensuite fournie
par lrsquoentrepocirct elle est bien souvent agrave lrsquoorigine de la motivation de la construction drsquoun tel
environnement
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de
Pseudomonas requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de
multiples sources de donneacutees Nous avons donc nous-mecircmes opteacute pour le deacuteveloppement
drsquoun entrepocirct de donneacutees et ainsi proposeacute des solutions agrave une inteacutegration systeacutematique et
reacuteconcilieacutee de donneacutees heacuteteacuterogegravenes
124
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes
Ainsi pour lrsquointeacutegration de donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Nous avons utiliseacute les services de donneacutees et le systegraveme meacutediateur SB-KOM pour
extraire et integravegre les donneacutees collecteacutees agrave partie des sources de donneacutees Les adaptateurs
forment une partie importante dans les services de donneacutees qui fournissent des moyens
pour interroger et correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de
donneacutees initialisent le processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une
interface qui reccedilue des requecirctes XQuery interroge les sources de donneacutees extraite les
donneacutees souhaiteacutes et les transforme en un modegravele commun utiliseacute par le SB-KOM
Les diffeacuterents composants du meacutediateur (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) se chargent par lrsquoeacutetape de transformation de donneacutees Nous nous
somme focaliseacutes sur le deacuteveloppement des scheacutemas XML pour les sources inteacutegreacutes qui
offrent une ideacutee geacuteneacuterale sur lrsquoorganisation de donneacutees au sein de sources originales De
cette maniegravere nous avons pu deacutevelopper par le biais de regravegles de correspondance
(mappings) une inteacutegration systeacutematique et reacuteconcilieacutee des donneacutees au sein du scheacutema
inteacutegrateur Comme un scheacutema global de lrsquoentrepocirct nous avons utiliseacute une ontologie de
domaine qui offre une repreacutesentation formelle au monde real par la deacutefinition des concepts
et des relations entre eux Le reacutesultat obtenu du meacutediateur SB-KOM est une instance de
lrsquoontologie Lrsquoutilisation de lrsquoontologie et des instances permet lrsquoinclusion de raisonnement
aux diffeacuterents niveaux Les diffeacuterentes instances retourneacutees par le SB-KOM sont chargeacutees
dans PseudmonasDW apregraves une translation automatique en XML par le biais de quelques
bibliothegraveques du Java Lrsquoutilisation drsquoun systegraveme meacutediateur pour une inteacutegration
seacutemantique de donneacutees dans un entrepocirct de donneacutees nous a permis drsquoexploiter leurs
avantages dans une nouvelle approche Drsquoune part les donneacutees sont physiquement
stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une interrogation directe et rapide Et drsquoautre
part lrsquointeacutegration et la mise agrave jour des donneacutees sont virtuellement acheveacutees en utilisant le
meacutediateur
Les diffeacuterents systegravemes drsquointeacutegrations deacuteveloppeacutees en bioinformatique ainsi que
leurs caracteacuteristiques ont eacuteteacute preacutesenteacutes tout au long du chapitre 2 Notre approche se
distingue des autres sur diffeacuterents points
125
Si aujourdrsquohui lrsquoenvironnement de PseudmonasDW permet un accegraves unifieacute agrave une
diversiteacute de donneacutees lrsquoajout de nouvelles sources couvrant drsquoautre domaine de
connaissance est envisageable et permettrait drsquointerpreacuteter au mieux les donneacutees biologique
et meacutetabolique de Pseudomonas sp Notamment il pourrait ecirctre inteacuteressant drsquointeacutegrer des
donneacutees de puces agrave ADN ou encore des donneacutees drsquoannotation biomeacutedicale provenant de
GO
Il faut souligner que les entrepocircts GenMapper ou GeWare sont particuliegraverement
adapteacutes agrave lrsquoajout de nouvelles sources de donneacutees par lrsquoutilisation drsquoun modegravele geacuteneacuterique
appeleacute GAM Ce dernier modeacutelise les sources de donneacutees plutocirct que leur contenu Dans
PseudmonasDW lrsquoajout de source suppleacutementaire implique une modification du scheacutema
global Cependant cette modification de scheacutema consiste plus en une extension de scheacutema
afin drsquoy ajouter de nouvelles classes permettant de deacutecrire le domaine drsquointeacuterecirct qursquoen une
modification profonde du scheacutema
Dans lrsquoentrepocirct GEDAW la conservation de trace de donneacutees provenant des
sources inteacutegreacutees nrsquoest pas pris en consideacuteration Dans ce sens la non volatiliteacute des
donneacutees caracteacuterisant lrsquoapproche entrepocirct de donneacutees nrsquoest pas respecteacutee Dans notre cas
la meacutethode getDataProvenance() de services de donneacutees joue un rocircle tregraves important dans la
non volatiliteacute des donneacutees et la conservation de leur traccedilabiliteacute
Dans le cas de BioWarehouse le systegraveme est linux-deacutependant et exige une installation
Cela rendre lrsquoutilisation de BioWarehouse une tacircche laborieuse pour les biologistes qui ne
maicirctrisent pas lrsquooutil informatique et particuliegraverement la plateforme Linux Dans
PseudomonasDW le systegraveme est plate-indeacutependant et nrsquoexige aucune installation local
dont il est disponible pour lrsquoutilisateur via une interface Web (voire chapitre 4)
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
126
CHAPITRE 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes Pseacuteudomonas Sp
127
Chapitre 4
PseacuteudomonasDW eacutet PDWiki Uneacute plateacuteformeacute biologiqueacute pour leacutes
Pseacuteudomonas Sp
Sommaire
1 Introductionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 127 2 Modeacutelisation de PseudomonasDW helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129 21 Diagramme de cas drsquoutilisation du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 129
22 Diagramme de seacutequence du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 133 23 Diagramme de classes du systegraveme PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 3 Impleacutementation de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 135 31 Organisation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 136 32 Impleacutementation des bases de donneacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 139 4 Interface Web de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 41 Les moteur de recherche dans PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 141 42 Les entreacutees de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 144 5 Outils bioinformatiques de PseudomonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)helliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 147 52 Inteacutegration de lrsquooutil Blast dans PseudmonasDWhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 153 6 PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 157 61 Geacuteneacuteraliteacute sur les wikis biologiqueshelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 158 62 PDWiki Infrastructure et Contenuehelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 159 63 Comment naviguer dans PDWikihelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 162 7 Discussionhelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphelliphellip 163
1 INTRODUCTION
Les Pseudomonas forment un large groupe colonisant le sol les plantes et lrsquoeau Ces
bacteacuteries Gram neacutegatives non sporulantes sont aeacuterobies obligatoires agrave lrsquoexception de
certaines pouvant utiliser le NO3 comme accepteur drsquoeacutelectrons Leur mobiliteacute est assureacutee
par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile et
chimioorganothorphe la plupart eacutetant saprophytes (Emmanuel et al 2000) Leur faciliteacute
de culture in vitro et la disponibiliteacute dun nombre croissant de seacutequences du geacutenome de
Pseudomonas ont fait du genre Pseudomonas un foyer ideacuteal pour la recherche scientifique
128
Plusieurs bases de donneacutees de haute qualiteacute existent deacutejagrave pour la recherche de
donneacutees de seacutequence et des annotations pour les Pseudomonas y compris le systegraveme
Integrated Microbial Genomes80 (IMG) (Markowitz et al) la ressource JCVI
Comprehensive Microbial Resource81 (CMR) (Peterson et al 2001) xBASE82
National Center for Biotechnology Information (NCBI) Microbial Genomes83
(Peterson et al 2001) et Microbes Online84 (Glasner et al 2008) Bien que ces bases de
donneacutees ont le but de faciliter la recherche et la comparaison des annotations geacutenomiques
sur la gamme complegravete des procaryotes mais aucune met laccent sur une curation interne
pour les Pseudomonas (Winsor et al 2009) Autres bases de donneacutees telles que
Enteropathogen Resource Integration Center85 (McLeod et al 2006) et le site
Pseudomonas syringae Genome Resources86 se focalisent sur la maintenance dune
grande qualiteacute de curation pour un groupe taxonomique speacutecifique tout en mettant laccent
sur le suivi des changements des annotations et de permettre leur comparaison entre les
espegraveces et les souches de leurs groupes respectifs (Winsor et al 2009) Drsquoautre part
Pseudomonas Genome Database87 (Winsor et al 2009) est une des bases de donneacutees
fameuses qui srsquointeacuteressent agrave lrsquoannotation des geacutenomes des Pseudomonas Cette base de
donneacutees se focalise sur lrsquoannotation du geacutenome de Pseudomonas aeruginosa PAO1 et
fournit des informations pertinentes pour la recherche geacutenomique de cette espegravece mais
manque de donneacutees relieacutees agrave la proteacuteine et aux autres concepts biologiques comme les
voies meacutetaboliques et les reacuteactions enzymatiques Pour les autres souches de Pseudomonas
la base de donneacutees Pseudomonas Genome Database offre un ensemble de donneacutees
qursquoon peut le consideacuterer pauvre par rapport aux donneacutees relatives au Pseudomonas
aeruginosa PAO1
Dans ce chapitre nous preacutesentons le produit de lrsquoapproche hybride deacutecrit dans le
chapitre preacuteceacutedent PseudomonasDW un entrepocirct de donneacutees semi-structureacute qui
regroupe des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques de lrsquoespegravece
de Pseudomonas PseudomonasDW incorpore 33 bases de donneacutees natives chacune pour
une espegravece ou une souche de Pseudomonas sp Dans ce chapitre nous deacutetaillons la phase
de lrsquoimpleacutementation de ces bases de donneacutees en deacutecrivant leur contenu la maniegravere de les
acceacuteder et de naviguer PseudomonasDW est prolongeacute par un wiki biologique speacutecifique
aux espegraveces de Pseudomonas nommeacute PDWiki qui donne agrave lrsquoutilisateur de
PseudomonasDW lrsquooccasion drsquoajouter et drsquoeacutediter des informations suppleacutementaires
concernant les espegraveces de Pseudomonas
80
httpimgjgidoegov 81
httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi 82
httpwwwxbaseacuk 83
httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml 84
httpwwwmicrobesonlineorg 85
httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric 86
httpwwwpseudomonas-syringaeorg 87
httpwwwpseudomonascom
129
2 MODEacuteLISATION DE PSEUDOMONASDW
Il est bien connu qursquoavant drsquoentreprendre la reacutealisation informatique drsquoun problegraveme il
est neacutecessaire de reacutefleacutechir aux tenants et aboutissants du systegraveme agrave reacutealiser il srsquoagit de
passer du monde reacuteel complexe et confus au monde informatique ougrave les structures et les
proprieacuteteacutes des objets doivent ecirctre identifieacutees Cette tacircche classique est eacutegalement essentielle
dans la modeacutelisation drsquoune base de donneacutees Cette phase de modeacutelisation neacutecessite de
nombreux choix qui auront des reacutepercussions importantes dans la suite
La modeacutelisation se reacutealise en trois eacutetapes principales qui correspondent agrave trois niveaux
drsquoabstraction diffeacuterents
Modegravele conceptuel repreacutesente le contenu de la base en termes
conceptuels indeacutependamment de toute consideacuteration informatique
Modegravele logique reacutesulte de la traduction du scheacutema conceptuel en un
scheacutema propre agrave un type de base de donneacutees
Modegravele physique est utiliseacute pour deacutecrire les meacutethodes drsquoorganisation et
drsquoaccegraves aux donneacutees de la base
La modeacutelisation conceptuelle est une eacutetape fondamentale de la conception des
systegravemes informatiques Elle a pour objectif une prise en compte plus adeacutequate des besoins
des applications dans leur environnement drsquoutilisation La modeacutelisation conceptuelle
consiste agrave repreacutesenter de maniegravere abstraite crsquoest-agrave-dire en termes de concepts familiers aux
domaines drsquoapplication et indeacutependamment des technologies drsquoimpleacutementation certains
aspects des systegravemes physiques ou humains et de leur environnement
Toute la modeacutelisation conceptuelle de lrsquoentrepocirct PseudomonasDW a eacuteteacute effectueacutee
gracircce aux diffeacuterents diagrammes proposeacutes par la meacutethodologie UML88 (Unified Modelling
Language voir Annexe 1) Nous avons choisi le langage UML pour ses caracteacuteristiques et
son dynamisme permettant une modeacutelisation aiseacutee des problegravemes entre autres biologiques
et bioinformatiques Nous nrsquoavons pas la preacutetention de preacutesenter ci-dessous un tutorial sur
lrsquoUML Seulement nous nous mettrons drsquoaccord sur les acquis fondamentaux fournis par
ce langage pour la conception de PseudomonasDW
21 Diagrammes des cas dutilisation du systegraveme PseudomonasDW
Le digramme des cas drsquoutilisation repreacutesente lrsquoensemble des cas drsquoutilisation de
PseudomonasDW (Un cas drsquoutilisation est une uniteacute coheacuterente repreacutesentant une
88
Vous pourriez vous reacutefeacuterer agrave [httpwwwumlorg] pour une eacutetude de ce langage
130
fonctionnaliteacute visible de lrsquoexteacuterieur) les acteurs en jeu (Un acteur est lrsquoideacutealisation drsquoun rocircle
joueacute par une personne externe un processus ou une chose qui interagit avec un systegraveme)
et les relations entre ces diffeacuterents cas Il capture le comportement du systegraveme tel qursquoun
utilisateur exteacuterieur le voit
Notre systegraveme preacutesent pour lrsquoinstant trois acteurs (Table 4) que sont lrsquoadministrateur
(ou le bioinformaticien) lrsquoentrepocirct de donneacutees PseudomonasDW et lrsquoutilisateur (ou le
biologiste)
Table4 La liste des acteurs
Lrsquoutilisateur peut interroger lrsquoentrepocirct de donneacutees en envoyant des mots cleacutes via
lrsquointerface Web comme il peut analyser les donneacutees en utilisant les fonctionnaliteacutes fournies
par le systegraveme Les principales opeacuterations de lrsquoutilisateur sont deacutefinies comme suit
Lrsquoutilisateur demande une connexion au systegraveme PseudomonasDW en
introduisant son URL
Lrsquoutilisateur interroge le systegraveme PseudomonasDW en introduisant des
mots cleacutes via son interface web
Lrsquoutilisateur analyse les donneacutees fournies par PseudomonasDW en
utilisant les diffeacuterentes fonctionnaliteacutes du systegraveme
a) Liste des cas drsquoutilisation de lrsquoutilisateur (Table5)
Table5 les cas drsquoutilisation de lrsquoutilisateur
Acteur Cas drsquoutilisation
Utilisateur Un interlocuteur interconnecteacute avec le systegraveme via internet
PseudomonasDW Le systegraveme avec lequel lrsquoutilisateur se connecte via une interface web
Administrateur Le superviseur du systegraveme
Cas drsquoutilisation
Etablissement drsquoune connexion avec le systegraveme
Interrogation du systegraveme
Analyse de donneacutees
131
b) Le diagramme de cas drsquoutilisation de lrsquoutilisateur (Figure 33)
Figure 33 Le diagramme de cas dutilisation de lutilisateur
PseudomonasDW offre une interface web entre lrsquoutilisateur et lrsquoensemble de donneacutees
stockeacutees au niveau de lrsquoentrepocirct de donneacutees Les principales opeacuterations du
PseudomonasDW sont comme suit
Translation de la requecircte par lrsquoutilisation des mots cleacutes introduits par
lrsquoutilisateur pour la constitution drsquoune requecircte convenable au scheacutema du
systegraveme
Construction du reacutesultat
Translation du reacutesultat en un format lisible par lrsquoutilisateur
a) Liste des cas drsquoutilisation de PseudomonasDW (Table6)
Table 6 les cas drsquoutilisation de PseudomonasDW
Cas drsquoutilisation
Translation de la requecircte
Construction du reacutesultat
Translation du reacutesultat
132
b) Le diagramme de cas drsquoutilisation de PseudomonasDW (Figure 34)
Figure 34 Le diagramme de cas dutilisation de PseudomonasDW
Lrsquoadministrateur est le superviseur du systegraveme Il interagit avec lrsquoentrepocirct pour inteacutegrer
nettoyer et rafraicircchir (mettre agrave jour) les donneacutees Il intervient eacutegalement pour reacutealiser
lrsquointerface de lrsquoentrepocirct et y rajouter des fonctionnaliteacutes lorsque les biologistes en eacutemettent
le souhait Les principales opeacuterations de lrsquoutilisateur sont comme suit
Inteacutegration de donneacutees au sein de PseudomonasDW
Nettoyage de donneacutees en eacuteliminant les redondances
Mise agrave jour de donneacutees par lrsquoajout la suppression et la modification de
donneacutees en fonction des sources originales
Maintenance de lrsquoentrepocirct de donneacutees
Maintenance de lrsquointerface Web
Ajout des fonctionnaliteacutes en cas de besoin
a) Liste des cas drsquoutilisation de lrsquoadministrateur (Table7)
Table 7 les cas drsquoutilisation de lrsquoadministrateur
Cas drsquoutilisation
Inteacutegration de donneacutees
Nettoyage de donneacutees
Mise agrave jour de donneacutees
Maintenance de PseudomonasDW
Maintenance de lrsquointerface Web
Ajout de fonctionnaliteacutes
133
b) Le diagramme de cas drsquoutilisation de lrsquoadministrateur (Figure 35)
Figure 35 Le diagramme de cas dutilisation de ladministrateur
22 Diagrammes de seacutequence du systegraveme PseudomonasDW
Les diagrammes de seacutequences permettent de repreacutesenter des collaborations entre les objets
selon un point de vue temporel Ils sont en geacuteneacuteral utiliseacutes pour modeacuteliser les aspects
dynamiques des systegravemes en temps reacuteel Les diagrammes de seacutequences ont eacuteteacute deacutesigneacutes
sous plusieurs noms dont diagrammes drsquointeractions traceacute de messages ou traceacute
drsquoeacuteveacutenements Leur notation est deacuteriveacutee principalement du lsquoObject Message Sequence Chartrsquo du
Siemens Pattern Group (Buschmann et al 1996)
Le diagramme de seacutequence ci-dessous (Figure 36) repreacutesente des eacuteveacutenements et des
messages envoyeacutes lors de lrsquointerrogation des bases de donneacutees de PseudomonasDW
(PDW DB) par un utilisateur via lrsquointerface Web (Web app) La Table 8 reacutesume les
diffeacuterents messages envoyeacutes en indiquant pour chaque message son eacutemetteur et son
reacutecepteur
134
Figure 36 Le diagramme de seacutequence interrogation de PseudomonasDW par luilisateur
Table8 La liste des mesages envoyeacutes entre lrsquoutilisateur lrsquointerface Web et les bases de donneacutees de
PseudomonsDW
message eacutemetteur reacutecepteur
1 Demande de connexion Utilisateur Web app
2 Etablissement de connexion Web app Utilisateur
3 Envoi de requecircte via des formulaires HTML Utilisateur Web app
4 Reacuteception de requecircte Web app Web app
5 Geacuteneacuteration de requecircte XQuery Web app Web app
6 Envoi de la requecircte XQuery Web app PDW DB
7 Interrogation des indexes PDW DB PDW DB
8 Identification des entreacutees rependant agrave la requecircte PDW DB PDW DB
9 Construction de reacutesultat XML PDW DB PDW DB
10 Transformation de reacutesultat de XML en XHTML PDW DB Web app
11 Affichage de reacutesultat en forma XHTML Web app Utilisateur
135
23 Diagramme de classes du systegraveme PseudomonasDW
Le diagramme de classes (Figure 37) constitue un eacuteleacutement tregraves important de la
modeacutelisation de PseudomonasDW il nous a permis de deacutefinir quelles seront les
composantes du systegraveme final il est consideacutereacute comme une repreacutesentation statique des
eacuteleacutements qui composent les bases de donneacutees de PseudomonasDW et de leurs relations
Nous nous sommes baseacutes sur les donneacutees proposeacutees par les sources inteacutegreacutees et les
diffeacuterents concepts de lrsquoontologie de PseudomonasDW preacutealablement deacuteveloppeacute lors de
la phase drsquointeacutegration de donneacutees (voir la section 33 du chapitre preacuteceacutedent) pour deacutefinir
les diffeacuterentes classes et relations composant notre diagramme de classe
Le diagramme de classe de PseudomonasDW est constitueacute de six classes
principales (classe lsquoGenomersquo classe lsquoGenersquo classe lsquoProteinrsquo classe lsquoEnzymersquo et la classe lsquoPathwayrsquo)
auxquelles ont eacuteteacute ajouteacutees drsquoautres classes qui donnent plus de speacutecialisation et de
raffinement au modegravele conceptuel du systegraveme Par conseacutequent le modegravele conceptuel nous
a permis de mieux comprendre la structure de PseudomonasDW ainsi que de deacutecrire ses
diffeacuterents concepts et les relations qui les lient Les classes repreacutesentent les modules des
bases de donneacutees de PseudomonasDW elles sont repreacutesenteacutees par des rectangles diviseacutes
en trois sections la section supeacuterieure contient le nom de la classe la section centrale
deacutefinit les proprieacuteteacutes de la classe et la section du bas eacutenumegravere les meacutethodes de la classe Les
diffeacuterentes classes du notre modegravele conceptuel sont relieacutees par des relations drsquoassociation
qui sont modeacuteliseacutees par des lignes reliant deux classes des relations de speacutecialisation qui
sont repreacutesenteacutees par des flegraveches allant de la sous classe agrave la super classe et des relations de
composition qui sont repreacutesenteacutees par des lignes avec un losange agrave la base
3 IMPLEMENTATION DE PSEUDOMONASDW
Comme nous avons deacutejagrave mentionneacutes tout au long de ce manuscrite lrsquoobjectif de cette thegravese
est la mise en place drsquoun entrepocirct de donneacutees XML speacutecifique aux espegraveces de
Pseudomonas Les entrepocircts de donneacutees XML forment une base inteacuteressante pour les
applications deacutecisionnelles qui exploitent des donneacutees heacuteteacuterogegravenes et provenant de sources
multiples
Les travaux meneacutes dans le contexte de lentreposage de donneacutees XML peuvent ecirctre
diviseacutes en deux familles (Mahboubi et al 2009)
La premiegravere famille propose une modeacutelisation multidimensionnelle pour les
entrepocircts de donneacutees XML Elle se base sur les modegraveles classiques (scheacutemas en
eacutetoile et deacuteriveacutes) Ces travaux permettent ainsi une utilisation dynamique des
dimensions et offrent un support pour des outils danalyse
136
Les approches de la seconde famille abordent la probleacutematique de lentreposage de
documents XML Elles perccediloivent un entrepocirct XML comme une collection de
documents XML
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous
sommes baseacutes sur les approches de la deuxiegraveme famille ougrave nous avons incorporeacutes les
donneacutees extraites agrave partir des sources de donneacutees inteacutegreacutees dans des documents XML
Chacun drsquoeux eacutetant stockeacute dans une collection de documents XML
Nous nous sommes arrecircteacutes dans la section 4 du chapitre 3 au point du stockage des
documents XML obtenus de la transformation des instances RDF au niveau de notre
entrepocirct de donneacutees PseudomonasDW Dans les sous-sections suivantes nous comptons
donner une vue geacuteneacuterale sur le processus de stockages des documents XML dans les bases
de donneacutees et la maniegravere de leur impleacutementation Nous avons utiliseacute les bases de donneacutees
XML natives (voir Annexe 2) et principalement le logiciel libre eXist (voir Annexe 3)
31 Organisation des bases de donneacutees de PseudomonasDW
Actuellement PseudomonasDW contient des informations concernant 33 espegraveces du
genre Pseudomonas (Table 9) stockeacutees dans 33 bases de donneacutees XML natives (une base
de donneacutees pour chaque espegravece) Une base de donneacutees est repreacutesenteacutee par une collection
des documents XML ougrave nous avons deacutejagrave stockeacutes les donneacutees Les donneacutees sont structureacutees
selon un scheacutema XML (modegravele logique de donneacutees) obtenue par la reacuteconciliation des
scheacutemas XML des sonurces de donneacutees deacutefinies dans la section 31 du chapitre 3 Ce
modegravele de donneacutees deacutefinie lrsquoorganisation et la restriction de donneacutees dans chaque entreacutee de
lrsquoentrepocirct Nous avons consideacutereacute que chaque document XML est une entreacutee de
PseudomonasDW identifieacutee par un numeacutero drsquoaccession unique Pour cela nous avons
nommeacutees lrsquoeacuteleacutement racie du modegravele de donneacutees laquo Entry raquo
137
Figure 37 Le diagramme conceptuel de PseudomonasDW
138
Table9 Quelques statistiques concernant les espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW
Pseudomonas Sp Taille de genome (bp) Nombre des gegravenes Nombres des entreacutees
Genomes complets
Pseudomonas aeruginosa PAO1 6264404 5682 5556
Pseudomonas aeruginosa M18 6327754 5764 5684
Pseudomonas aeruginosa NCGM2S1 6764661 6538 6269
Pseudomonas aeruginosa LESB58 6601757 6061 5908
Pseudomonas aeruginosa PA7 6588339 6369 6246
Pseudomonas aeruginosa UCBPP-PA14 6537648 5977 5886
Pseudomonas fluorescens PfO-1 6438405 5829 5714
Pseudomonas fluorescens Pf-5 7074893 6233 6137
Pseudomonas fluorescens SBW25 6722539 6106 5921
Pseudomonas fluorescens F113 6845832 5953 5862
Pseudomonas putida F1 5959964 5403 5245
Pseudomonas putida GB-1 6078430 5529 5408
Pseudomonas putida KT2440 6181863 5516 5350
Pseudomonas putida W619 5774330 5309 5182
Pseudomonas putida BIRD-1 5731541 5046 4960
Pseudomonas putida S16 5984790 5307 5171
Pseudomonas syringae pvphaseolicola 6112448 5437 5172
Pseudomonas syringae pvtomato 6397126 5688 5481
Pseudomonas syringae pvsyringae 6093698 5220 5089
Pseudomonas stutzeri A1501 4567418 4210 4128
Pseudomonas stutzeri DSM 4166 4689946 4372 4301
Pseudomonas stutzeri ATCC 17588 4547930 4287 4181
Pseudomonas entomophila L48 5888780 5275 5134
Pseudomonas mendocina ymp 5072807 4704 4594
Pseudomonas mendocina NK-01 5434353 5035 4954
Pseudomonas brassicacearum NFM421 6843248 6176 6081
Pseudomonas fulva 12-X 4920769 4540 4459
Genomes incomplets
Pseudomonas aeruginosa C3719 asymp 6146998 5626 5207
Pseudomonas aeruginosa 2192 asymp 6826253 6243 5905
Pseudomonas aeruginosa 152504 asymp 6813259 6499 6221
Pseudomonas aeruginosa 138244 asymp 6357409 6230 6096
Pseudomonas aeruginosa 39016 asymp 6866064 6468 6402
Pseudomonas chlororaphis - - 218
Toutes les bases de donneacutees de PseudomonasDW sont centraliseacutes sur cinq concepts
(ou entiteacutes biologiques) (Figure 38) Organisme Gegravene Proteacuteine Enzyme et voie
meacutetabolique Ces concepts sont repreacutesenteacutes dans le modegravele de donneacutees par cinq eacuteleacutements
figureacutes directement apregraves lrsquoeacuteleacutement racine
Lrsquoeacuteleacutement laquoOrganismDataraquo et ses descendants deacutecrivent les donneacutees et leur
organisation relieacutees agrave lrsquoespegravece de Pseudomonas de la base de donneacutees
correspondante
Lrsquoeacuteleacutement laquoGeneDataraquo est creacuteeacute pour encapsuler et modeacuteliser les donneacutees relieacutees au
gegravene codant agrave la proteacuteine deacutecrite au niveau de lrsquoentreacutee
Les donneacutees relieacutees directement agrave la proteacuteine deacutecrite par une entreacutee sont structureacutees
sous lrsquoeacuteleacutement laquoProteinDataraquo
139
Plusieurs enzymes eacuteventuelles peuvent ecirctre relieacutees agrave une seule proteacuteine dans
PseudomonasDW Lrsquoeacuteleacutement laquo EnzymeDataraquo est un eacuteleacutement optionnel qui compte
deacutefinir et organiser les donneacutees concernant les enzymes et leurs proprieacuteteacutes
Le dernier fils de lrsquoeacuteleacutement laquo Entry raquo est lrsquoeacuteleacutement laquoPathwayDataraquo qui deacutetermine les
diffeacuterentes voies meacutetaboliques dans lesquelles participe la proteacuteine deacutefinit dans
lrsquoentreacutee
Figure 38 Lorganisation de donneacutees dans les bases de donneacutees de PseudomonasDW A gauche les cinqs eacuteleacutements du niveau le plus haut du modegravele de donneacutees de PseudomonasDW A droite un exemple dun document XML stockeacute dans la base de donneacutees de Pseudomonas aeruginosa PAO1
32 Impleacutementation des bases de donneacutees de PseudomonasDW
En geacuteneacuteral PseudomonasDW utilise les deux technologies JAVA et XML Les donneacutees
sont stockeacutees dans des bases de donneacutees XML natives selon le modegravele de donneacutees XML
deacutecrit dans la section preacuteceacutedente 32 Les bases de donneacutees natives sont geacutereacutees par la
version eXist-db 140 Nous avons utiliseacute eXist comme eacutetant une distribution autonome
qui srsquoexeacutecute agrave lrsquointeacuterieur drsquoune application Web servis par un serveur preacuteconfigureacute nommeacute
Jetty89 cela nous a permis de beacuteneacuteficier de toutes ses interfaces utiliseacutees comme des
servlets pour lrsquoaccegraves distant
89
httpjettycodehausorgjetty
140
La fenecirctre laquo Client drsquoadministration raquo (Figure 39) fournit par eXist nous a permis de
charger automatiquement (en utilisant les diffeacuterentes options du menu) les documents
XML dans 33 collections une collection pour chaque espegravece entreposeacute dans
PseudomonasDW Lrsquointerrogation des collections a eacuteteacute effectueacutee agrave partir de notre
application Java via lrsquoAPI XMLDB90 Le langage de requecircte utiliseacute est le standard XQuery
Le processus de requecircte est extensible et dispose drsquoune vaste collection de module de
fonctions de XQuery
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Figure 39 La fenecirctre Client dadministration deXist repreacutesentant les 33 collections stockeacutees au niveau de PseudomonasDW
90
XMLDB API qui propose une interface pour lrsquoaccegraves aux bases de donneacutees natives ou toute autre base de donneacutees supportant XML
141
4 INTERFACE WEB DE PSEUDOMONASDW
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
41 Les Moteurs de rechercheacute dans PseudomonasDW
Lrsquointerface Web de PseudomonasDW propose deux formulaires de recherche ou des
moteurs de recherche pour acceacuteder aux donneacutees stockeacutees au niveau des bases de donneacutees
XML natives
Le formulaire simple ou rapide (Figure 40) il apparut en haut de toutes les
pages de lrsquointerface Web et permet drsquoenvoyer rapidement les requecirctes en se basant sur
quelques mots cleacutes (Nom du gegravene ou de Proteacuteine terme de GO ou nrsquoimporte quel mot cleacute
qui apparut dans les champs de recherche des bases de donneacutees inteacutegreacutees) Le moteur de
recherche rapide offre la possibiliteacute de restreindre la recherche en utilisant une option de
recherche qui permet agrave lrsquoutilisateur de seacutelectionner une espegravece speacutecifique de Pseudomonas
parmi lrsquoensemble des espegraveces inteacutegreacutees (Figure 41) Le formulaire offre aussi un menu
laquo drop-down raquo (Figure 42) avec lequel lrsquoutilisateur peut limiter sa recherche dans un champ
speacutecifique Par exemple lrsquoutilisateur peut seacutelectionner laquo Protein Names raquo dans le menu laquo drop-
down raquo pour orienter la recherche seulement dans les champs ougrave figurent les noms de la
proteacuteine et ignorer tous les autres champs Cette option nous a permis drsquoaider lrsquoutilisateur agrave
minimiser le temps et la complexiteacute de la recherche
Le moteur de recherche avanceacute (Figure 43) ce dernier offre agrave lrsquoutilisateur la
possibiliteacute de soumettre des requecirctes complexes baseacutees sur plusieurs mots cleacutes Ce
formulaire de recherche ou moteur de recherche propose des champs de recherche
multiple ougrave lrsquoutilisateur peut speacutecifier des mots cleacutes relieacutes aux diffeacuterentes donneacutees de
Pseudomonas stockeacutees au niveau des bases de donneacutees ( Sub-cellular Location Protein
Existence Operon Gene Ontology Term EC Number Pathway Name etc) Nous avons
aussi eacutequipeacute ce formulaire de recherche avec une option pour choisir une ou plusieurs
espegraveces pour la reconstitution de la requecircte De cette maniegravere les utilisateurs ont la
possibiliteacute de soumettre des requecirctes en mecircme temps agrave plusieurs bases de donneacutees
Autrement dit les utilisateurs peuvent chercher dans un nombre de bases de donneacutees allant
de 1 agrave 33
142
Figure 40 Le moteur de recherche rapide ou (Simple) de linterface Web de Pseudomonas
Figure 41 Une capture deacutecran de lun des champs du moteur de recherche rapide qui donne la possibiliteacute de seacutelectionner lespegravece souhaiteacute
Figure 42 Une capture deacutecran du menu drop-down qui offre agrave lutilisateur la possibiliteacute de seacutelectionner un champ speacutecifique de recherche
143
Figure 43 Une capture deacutecran de la page Web du moteur de recherche avanceacute
144
Chaque formulaire de recherche (rapide et avanceacute) utilise une servlet distingue
nommeacutee laquoPost methodraquo Ces servlets reccediloivent des mots cleacutes speacutecifiques et faites appel agrave
quelques classes Java qui geacutenegraverent des requecirctes XQuery pour ecirctre envoyer aux bases de
donneacutees de PseudomonasDW Lrsquoapplication Web reccediloivent des repenses de format XML
et utilisent quelques feuilles de styles (XSLT et CSS) pour convertir ces repenses agrave des vues
HTML montrant toutes les entreacutees correspondantes agrave la requecircte Un effort consideacuterable a
eacuteteacute aussi investi pour rendre la recherche dans PseudomonasDW assez simple et
convenable pour les utilisateurs qui nrsquoont pas une connaissance deacutetailleacutee aux donneacutees de
PseudomonasDW Le site Web offre aussi la possibiliteacute de teacuteleacutecharger des donneacutees dans
quelques formats qui deacutependent agrave lrsquoensemble de donneacutees choisis
Un ensemble drsquoentreacutees est teacuteleacutechargeable en format XML
Des seacutequences nucleacuteiques et drsquoacides amineacutes sont teacuteleacutechargeables en format Fasta
Quelques annotations de seacutequences sont teacuteleacutechargeables en formats GFF3
42 Les entreacutees de Pseudomonas DW
Chaque entreacutee de PseudomonasDW (Figure 44) deacutecrie une proteacuteine donneacutee selon cinq
sections (suivant les cinq eacuteleacutements principaux du modegravele de donneacutees XML deacutefinit dans la
section 313) lsquoOrganismrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo et lsquoPathwaysrsquo Toutes ces sections sont
listeacutees dans une seule page HTML Une barre de menu dynamique facilite le passage drsquoune
section agrave autre par un simple clic est situeacute au haut de chaque page drsquoentreacutee Les entreacutees de
PseudomonasDW listent des informations utiles qui sont deacutecrit drsquoune maniegravere deacutetailleacutee
dans la page lsquoUser guidersquo qui est disponible en ligne sur le site Web Ci-apregraves quelques deacutetails
des cinq sections
La section lsquoOrganism deacutecrit les informations relieacutees agrave lrsquoespegravece sous-jacent agrave lrsquoentreacutee Ces
informations concernent principalement le nom de lrsquoorganisme sa taxonomie le type et la
langueur du chromosome plus de quelques statistiques sur le nombre des gegravenes codant
pour les proteacuteines et les ARN
La section lsquoGenersquo cite des informations relieacutees au gegravene codant pour la proteacuteine en
question Les donneacutees de cette section offrent une bregraveve description du gegravene le nom
scientifique les reacutefeacuterences bibliographiques et une table de caracteacuteristiques deacutecrivant les
diffeacuterents domaines biologiques du gegravene Ces derniers incluent les reacutegions codantes de la
seacutequence nucleacuteotidique les ORFs les Operons les Promoteurs les facteurs de
transcriptions les sites de liaison et les sites de mutations ou de modification Cette section
offre aussi les coordonneacutes chromosomiques et la seacutequence nucleacuteotidique Une image du
gegravene geacuteneacutereacutee par lrsquooutil GBrouse (Donlin 2002) est aussi repreacutesenteacutee dans cette section A
partir de lrsquoimage de GBrowse lrsquoutilisateur peut naviguer agrave lrsquooutil en cliquant sur lrsquoimage
145
Figure 44 Un exemple de lentreacutee de PseudomonasDW il repreacutesente les deux sections Organism et Gene de lentreacutee PAE00524
146
La section lsquoProteinrsquo preacutesente des informations sur la proteacuteine deacutecrite dans lrsquoentreacutee Elle
contient souvent une large quantiteacute de donneacutees qui doit ecirctre repreacutesenteacutee drsquoune maniegravere qui
permet un affichage et une lecture tregraves simple Les informations de cette section sont
repreacutesenteacutees dans des tableaux concernant en plus de la nomenclature scientifiques de la
proteacuteine la fonctionnaliteacute de la proteacuteine lrsquoactiviteacute catalytique le meacutecanisme de reacutegulation et
lrsquoannotation de lsquoGene Ontologyrsquo La section lsquoProteinrsquo liste aussi les diffeacuterentes
caracteacuteristiques de la proteacuteine (les sites de liaisons les chaines les heacutelix hellip etc) les
reacutefeacuterences bibliographiques des cross-reacutefeacuterences vers drsquoautres bases de donneacutees ainsi que
la seacutequence peptidique de la proteacuteine
La section lsquoEnzymersquo offre des informations sur les activiteacutes enzymatiques de la proteacuteine
deacutecrite dans lrsquoentreacutee Cette section offre les informations suivantes lsquoEnzyme Commission
numberrsquo ce numeacutero a un lien direct vers lrsquoentreacutee correspondante dans la base de donneacutees
enzymatique Brenda la nomenclature de lrsquoenzyme et une bregraveve description des reacuteactions
catalytique auxquelles elle participe (le nom et le type de la reacuteaction les noms des substrats
et des produits en plus de quelques commentaires) La section lsquoEnzymersquo offre aussi des
informations sur les interactions enzyme_ligand impliquant lrsquoenzyme deacutecrite En plus des
informations sur la structure de lrsquoenzyme quelques proprieacuteteacutes moleacuteculaires et des
paramegravetres fonctionnels sont aussi repreacutesenteacutes par la section lsquoEnzymersquo
La section lsquoPathwayrsquo deacutecrit les informations sur toutes les voies meacutetaboliques dans
lesquelles participe la proteacuteine deacutecrite dans lrsquoentreacutee Ces informations sont principalement
propageacutees vers le nom de la voie meacutetabolique le numeacutero drsquoaccession dans la base de
donneacutees KEGG les classes de la voie meacutetabolique (par exemple la classe meacutetabolisme hellip)
lrsquoensemble des proteacuteines et les composants chimiques qui participent dans la voie
meacutetabolique La section lsquoPathwayrsquo offre une image statique pour chaque voie meacutetabolique
preacutesenteacute dans lrsquoentreacutee cette image offre une repreacutesentation graphique de tous les
composants et les modules de la voie meacutetabolique
Les deux sections lsquoOrganismrsquo et lsquoProteinrsquo sont des sections permanentes dans toutes les
entreacutees de PseudomonasDW Les autres sections sont optionnelles selon la preacutesence ou
lrsquoabsence du gegravene de lrsquoenzyme et de la voie meacutetabolique Lrsquoabsence de la section lsquoGenersquo
deacutepend de lrsquoannotation du gegravene codant si elle est complegravete ou non on retrouve ce cas
(lrsquoabsence de la section lsquoGenersquo) dans la base de donneacutees de lrsquoespegravece Pseudomonas chlororaphis
Lrsquoabsence de la section lsquoEnzymersquo deacutepend de lrsquoabsence de lrsquoactiviteacute enzymatique de la
proteacuteine deacutecrite dans lrsquoentreacutee La mecircme chose pour la section lsquoPathwayrsquo qursquoon peut la
retrouver ou non sur une entreacutee de PseudomonasDW selon la participation ou non de la
proteacuteine dans des voies meacutetaboliques
147
5 OUTILS BIOINFORMATIQUES DE PSEUDOMONASDW
Nous avons vu preacuteceacutedemment dans le chapitre I de ce manuscrit que les donneacutees
biologiques continuent de croicirctre de maniegravere exponentielle tant en nombre quen types
Quelles soient des seacutequences des profils dexpression des polymorphismes ou des entreacutees
bibliographiques il a eacuteteacute neacutecessaire de deacutevelopper des outils pour interroger ou recouper
ces donneacutees et permettre aux utilisateurs de comparer leurs propres donneacutees agrave lexistant
Ces outils doivent donc ecirctre
Facilement acceacutedeacutes crsquoest agrave dire librement accessibles via Internet
Didactiques crsquoest agrave dire faciles agrave prendre en main voire mieux encore intuitifs
Exhaustifs crsquoest agrave dire quagrave partir dune information trouveacutee ils doivent permettre
de parcourir lensemble des liens rattacheacutes agrave celle-ci afin deacuteviter agrave lutilisateur decirctre
obligeacute de jongler avec diffeacuterentes sources dinformations
Deux grands types doutils sont agrave preacutesent disponibles pour la communauteacute des
biologistes les navigateurs de banques de donneacutees91 et les navigateurs geacutenomiques92 Les
premiers sont deacutedieacutes agrave linterrogation des banques et bases de donneacutees tandis que les
deuxiegravemes sont comme leur nom lindique deacutedieacutes au parcours de geacutenomes complets et agrave la
visualisation des annotations associeacutees Cette classification est toutefois quelque peu
scheacutematique puisque certains outils integravegrent lensemble des fonctionnaliteacutes bases de
donneacutees outils dinterrogation et outils de navigation sur le geacutenome
Cest pourquoi une telle base de donneacutees comme PseudomonasDW a lobligation
aujourdhui drsquointeacutegrer dans son application web diffeacuterents outils bioinformatiques destineacutes
agrave faciliter lexploitation et lanalyse de ses donneacutees notamment un navigateur geacutenomique
quest devenu indispensable pour une base de donneacutee geacutenomique Pour combler ce
manque nous nous sommes chargeacutes daccomplir une tacircche essentielle dabord choisir et
inteacutegrer un navigateur geacutenomique pour PseudomonasDW et ensuite inteacutegrer un autre
outil drsquoalignement de seacutequences qui permet aux utilisateurs de trouver les reacutegions similaires
entre deux ou plusieurs seacutequences nucleacuteotidiques ou peptidiques de diffeacuterentes espegraveces
stockeacutees dans PseudomonasDW
51 Navigateur geacutenomique pour PseudomonasDW (GBrowse)
Le choix dun navigateur geacutenomique pour PseudomonasDW est une tacircche qui nest pas
facile ni eacutevidente du fait que les diffeacuterents navigateurs geacutenomiques preacutesentent plusieurs
points forts et plusieurs faiblesses
91
DataBank browsers 92
Genome browsers
148
Par exemple lun des plus populaires navigateurs geacutenomiques qui est Ensembl preacutesente
la meilleure application pour la geacutenomique comparative mais dautre part un autre
navigateur geacutenomique populaire qui est Gbrowse93 offre une meilleure flexibiliteacute avec
beaucoup doptions suppleacutementaires et de PlugIns en addition dune large communauteacute de
deacuteveloppeurs ainsi que le grand nombre de bases de donneacutees geacutenomiques de reacutefeacuterence et
qui ont une bonne reacuteputation mais son application pour la geacutenomique comparative nest
pas aussi riche que Ensembl
Par conseacutequent la deacutetermination du navigateur geacutenomique qui convient le mieux aux
besoins des chercheurs et lensemble de la communauteacute scientifique qui srsquointeacuteresse agrave
Pseudomonas sp est une eacutetape cleacute dans cette thegravese et une tacircche qui requiert un examen
attentif
Ainsi plusieurs raisons ont contribueacute agrave notre choix final de Gbrowse comme navigateur
geacutenomique pour PseudomonasDW
Ensembl est toute une application libre de droit dauteur sur son code source
qui pourra techniquement ecirctre adapteacutes agrave PseudomonasDW et fait tout le
neacutecessaire dans un navigateur geacutenomique Mais il est de moins en moins utiliseacute
et son communauteacute de deacuteveloppeurs nest pas aussi large que celle de Gbrowse
ce qui rend son deacuteveloppement moins actif sa mise-agrave-jour moins freacutequente et
la deacutecouverte et la reacutesolution de bugs plus difficile
Linteacutegration dun navigateur geacutenomique bien connu et plus utiliseacute preacutesente des
avantages consideacuterables A court terme il est preacutefeacuterable et bien recommandeacute
que les utilisateurs potentiels de PseudomonasDW soient familiariseacutes avec le
fonctionnement du navigateur geacutenomique qui serait mis agrave leur disposition dans
le site Web Or la plupart des bases et banques de donneacutees geacutenomiques
existantes et qui sinteacuteressent agrave Pseudomonas sp emploie Gbrowse comme
navigateur geacutenomique cest agrave dire quil est loutil avec lequel les futurs
utilisateurs potentiels ont lhabitude de travailler par conseacutequent ils le
trouveront plus aiseacute agrave manipuler
Les caracteacuteristiques les plus deacutesireacutees et les plus demandeacutee dans un navigateur
geacutenomique sont la faciliteacute dutilisation la visualisation claire et intuitive des
geacutenomes en plus de la rapiditeacute qui est indispensable
Plusieurs sondages reacutealiseacutes agrave ce propos montrent que les utilisateurs des navigateurs
geacutenomiques en geacuteneacuteral ne considegraverent pas Ensembl facile et intuitive en comparaison aux
autres navigateurs (Sen et al 2010)
93
httpgmodorgwikiGBrowse
149
511 GBrowse Vue geacuteneacuterale
GBrowse est une partie du projet GMOD (Generic Modele Organisme Database project) qui
correspond agrave une collection de logiciels open source pour creacuteer et geacuterer des bases de
donneacutees biologiques agrave lrsquoeacutechelle du geacutenome Le projet GMOD est soutenu par un accord
speacutecifique de coopeacuteration entre le Service pour la recherche agricole de lrsquoUSDA et par des
subventions des NIH co-financeacutees par le National Human Genome Research Institut et lrsquoInstitut
national des sciences meacutedicales geacuteneacuterales Ce projet est sous licence GNU General Public License
(ou GPL)
GBrowse a eacuteteacute deacutesigneacute pour la visualisation des geacutenomes il affiche une repreacutesentation
graphique dune section dun geacutenome ainsi que les positions des gegravenes en plus dautres
eacuteleacutements fonctionnels GBrowse peut ecirctre configureacute pour afficher les donneacutees qualitatives
comme la structure dun gegravene ou quantitative comme les degreacutes dexpression des puces agrave
ADN GBrowse propose les fonctionnaliteacutes suivantes
vue globale et vue deacutetailleacutee du geacutenome
deacutefilement zoom et centrage
utilisation de repreacutesentations graphiques (ou glyphes) preacutefabriqueacutees ou bien
personnaliseacutees
joindre une URL arbitraire agrave une annotation
ordre et apparence des pistes personnalisables par lrsquoadministrateur et lrsquoutilisateur
final
recherche par ID annotation nom ou commentaire
connectiviteacute agrave diffeacuterentes bases de donneacutees telles que BioSQL94 et Chado95
support multi-langues
prise en charge des annotations agrave partir du format GFF96
persistance des paramegravetres de session agrave session
plug-in drsquoarchitecture personnalisable (par exemple exeacutecuter BLAST importer de
nombreux formats trouver des oligonucleacuteotides concevoir des amorces creacuteer des
cartes de restriction eacutediter des fonctions)
512 Installation de GBrowse
Le serveur qui heacuteberge PseudomonasDW est sous la plateforme Linux sur ce fait nous
avons choisi drsquoutiliser un shell CPAN (reacuteseau complet drsquoarchives Perl) qui facilite
lrsquoinstallation des preacuterequis fondamentales pour le fonctionnement de GBrowse Nous avons
eu besoin drsquoinstaller
94
httpwwwbiosqlorgwikiMain_Page 95
httpgmodorgwikiChado_-_Getting_Started 96
httpgmodorgwikiGFF
150
Apache Web Server97
Perl 598
Les modules de Perl suivants
o GCI
o GD
o DBI
o DBD mysql
o Digest MD5
o Text shellwords
Bioperl99
Il existe plusieurs meacutethodes pour installer Gbrowse premiegraverement nous avons choisi
drsquoinstaller Gbrowse2 nous avons utiliseacute la commande apt-get qui nous a permis une
installation automatique de GBrowse
adminadmin~$ sudo apt-get install gbrowse gbrowse-calign
gbrowse-data
La faccedilon optimale et recommandeacutee pour lrsquointeacutegration de GBrowse est de mettre les
donneacutees drsquointeacuterecircts dans des bases de donneacutees GBrowse supporte plusieurs systegravemes de
gestion de bases de donneacutees gracircce aux nombreux adaptateurs dont il dispose chacun avec
sa vitesse ces avantages ses limites et ses types de formats qursquoil supporte A cette eacutetape
drsquoinstallation nous eacutetions encore confronteacutes agrave faire un choix parmi la multitude des
adaptateurs disponibles Cocircteacute format de fichiers il est mentionneacute souvent dans la litteacuterature
que le format optimal pour stocker les donneacutees geacutenomiques est le format GFF3 le SGBD
le plus adeacutequat eacutetant MySQL drsquoabord parce qursquoil est le plus utiliseacute et ensuite parce qursquoil est
le premier impleacutementeacute dans GBrowse donc il a acquis plus drsquoexpeacuteriences et drsquoameacuteliorations
au fil des anneacutees Nous avons choisi lrsquoadaptateur BioDB SeqFeatureStore pour assurer
la communication entre GBrowse et les bases de donneacutees MySQL Lrsquoadaptateur BioDB
SeqFeatureStore est le plus adapteacute agrave fonctionner avec GFF3 et MySQL il est drsquoailleurs le
plus reacutecent des adaptateurs et le plus recommandeacute
513 Creacuteation et peuplement des bases de donneacutees MySQL
Avant la creacuteation et le peuplement des bases de donneacutees lrsquoobtention des donneacutees est une
eacutetape qui neacutecessite une eacutetude minutieuse Les donneacutees geacutenomiques fournies par
PseudomonasDW concernent seulement les gegravenes codant pour des proteacuteines (puisque
chaque entreacutee de PseudomonasDW deacutecrit une proteacuteine et les diffeacuterentes donneacutees
relatives agrave cette proteacuteine) et manquent aux autres loci geacutenomiques Notons dans ce
97
httphttpdapacheorg 98
httpdevperlorgperl5 99
httpwwwbioperlorgwikiMain_Page
151
contexte que les donneacutees geacutenomiques utiliseacutees par PseudomonasDW proviennent de la
banque de donneacutees GenBank pour cela nous avons choisi drsquoutiliser et drsquoadapter (selon nos
besoins) les fichiers GFF3 fournies par GenBank pour combler le manque de nos fichiers
GFF3
La Figure 45 explique les diffeacuterentes eacutetapes de creacuteation et de configuration de bases de
donneacutees MySQL La premiegravere eacutetape apregraves lrsquoadaptation des fichiers GFF3 de GenBank eacutetait
la creacuteation de 34 bases de donneacutees pour 29 eacutespegraveces de Pseudomonas inteacutegreacutees dans
PseudomonasDW (29 bases de donneacutees pour les chromosomes et 5 bases de donneacutees
pour les plasmides) La deuxiegraveme eacutetape eacutetait le peuplement de chaque base de donneacutees
MySQL par le contenu du fichier GFF3 correspondant cette eacutetape a eacutetait reacutealiseacutee par
lrsquoexeacutecution du module de Bioperl lsquobp_seqfeature_loadplrsquo en utilisant le code suivant
Figure 45 Les diffeacuterentes eacutetapes de creacuteation de bases de donneacutees de GBrowse
adminadmin~$ sudo bp_seqfeature_loadpl -c --dsn
dbimysqlDB_Name --user root --password
varlibgbrowsedatabasesfilegff3
La derniegravere eacutetape eacutetait la configuration des bases de donneacutees MySQL pour qursquoelles
soient lisibles et accessibles par lrsquooutil GBrowse Cette eacutetape a eacutetait reacutealiseacutee via la creacuteation de
fichier de configuration pour chaque base de donneacutees Le fichier de configuration garde la
forme geacuteneacuterale du fichier lsquoGBrowseconfrsquo qui se creacutee automatiquement lors de lrsquoinstallation de
GBrowse et qui contient les directives qui indiquent agrave lrsquooutil les instructions drsquooptions qui
152
srsquoappliquent sur lrsquoensemble des bases de donneacutees Cependant nous avons eacutediteacute le
paramegravetre db_adaptor = BioDBSeqFeatureStore dans chaque fichier de
configuration pour faciliter la communication entre GBrowse et les bases de donneacutees Ainsi
nous avons introduit quelques modifications concernant les paramegravetres drsquoaffichage pour
donneacutees une lisibiliteacute agrave lrsquoimage de GBrowse reacutesultante
Afin drsquoadapter le fonctionnement de PseudomonasDW avec lrsquointeacutegration de GBrowse
nous avons ajouteacute pour chaque section Gene de chaque entreacutee de PseudomonasDW un
onglet intituleacute Gbrowse View qui se charge drsquoafficher lrsquoimage du gegravene correspondant agrave
lrsquoentreacutee (Figure 46) Pour une recherche plus exhaustive lrsquoutilisateur peut naviguer vers lrsquooutil
GBrowse inteacutegreacute au niveau de PseudomonasDW en cliquant seulement sur lrsquoimage
reacutesultante
Figure 46 Limage de GBrowse inteacutegreacutee dans la section Gene de lentreacutee PAE00011
153
52 Inteacutegration de lrsquooutil Blast dans PseudomonasDW
521 Blast Vue geacuteneacuterale
Blast est un programme permettant de reacutealiser un alignement local entre deux seacutequences
(nucleacuteiques ou proteacuteiques) Sa rapiditeacute permet deffectuer des comparaisons entre une
seacutequence donneacutee dite requecircte et un ensemble de seacutequences Blast est fourni sous la forme
dun package composeacute des programmes suivants
blastn blast nucleacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques
blastp blast proteacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
proteacuteiques
blastx blast nucleacuteique vs proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
proteacuteiques
tblastn blast proteacuteique vs nucleacuteique
Pour comparer une seacutequence requecircte proteacuteique agrave une banque de seacutequences
nucleacuteiques
tblastx blast nucleacuteique vs nucleacuteique en passant par un alignement proteacuteique
Pour comparer une seacutequence requecircte nucleacuteique agrave une banque de seacutequences
nucleacuteiques en alignant les seacutequences proteacuteiques induites par les seacutequences
nucleacuteiques
Lrsquointeacutegration de Blast dans PseudomonasDW nrsquoeacutetait pas une tacircche laborieuse
comme celle du GBrowse La premiegravere eacutetape dans lrsquointeacutegration de Blast apregraves avoir
teacuteleacutechargeacute son package eacutetait la creacuteation des bases de donneacutees utilisable par le Blast une
base de donneacutees pour chaque espegravece inteacutegreacutee dans PseudomonasDW Le programme
lsquomakeblastdbrsquo fourni dans le package BLAST permet de creacuteer automatiquement une telle
base de donneacutees agrave partir de nos seacutequences stockeacutees au format FASTA
Cependant lrsquoobjectif de cette partie de travail nrsquoeacutetait pas une installation de Blast mais
son inteacutegration au sein de PseudomonasDW pour permettre aux utilisateurs de lrsquoentrepocirct
de donneacutees de faire un blast de leurs seacutequences contre les diffeacuterentes bases de donneacutees
proposeacutees par PseudomonasDW Ainsi pour atteindre cet objectif nous avons deacuteveloppeacute
une application Web capable de soumettre les requecirctes des utilisateurs agrave Blast Cette
application est installeacute sur le serveur de PseudomonasDW pour recevoir la reacuteponse et de
le transmettre agrave son tour agrave lrsquoutilisateur dans un navigateur Web
154
522 La fonctionnaliteacute du Blast
Lrsquoutilisateur de PseudomonasDW deacutesirant comparer sa propre seacutequence avec les
seacutequences contenues dans les bases de donneacutees de PseudomonasDW peut acceacuteder agrave la
page reacuteserveacutee agrave Blast via le menu gauche de la page drsquoaccueil du site Web de
PseudomonasDW La Figure 47 montre une capture drsquoeacutecran de la page Web du Blast dans
PseudomonasDW
Figure 47 Capture deacutecran montrant la page Web du Blast dans PseudomonasDW
La page Web du Blast fournit par le site de PseudomonasDW offre agrave lrsquoutilisateur la
possibiliteacute de PrimeblasterPrime ses seacutequences contre
Les diffeacuterentes bases de donneacutees de PseudmonasDW par la soumission des seacutequences
(nucleacuteiques ou peptidiques) ou par le chargement drsquoun fichier texte contenant les seacutequences
agrave aligner en format FASTA Lrsquoutilisateur peut aligner contre une seule base de donneacutees
comme il peut aligner contre toutes les bases de donneacutees de PseudomonasDW par le
choix de lrsquooption laquo All Databases raquo (Figure 48) Lrsquoutilisateur a la possibiliteacute aussi de deacutefinir la
partie de la seacutequence qursquoil souhaite aligner en deacuteterminant les coordonneacutees de ses
extreacutemiteacutes
Un ensemble de seacutequences de son choix en faisant appel agrave un deuxiegraveme formulaire
de soumission en cochant la case laquo Align two or more sequences raquo (Figure 49) Cette
155
option offre la possibiliteacute drsquoaligner deux ensembles de seacutequences indeacutependamment des
bases de donneacutees stockeacutees au niveau de PseudomonasDW
Figure 48 Une capture deacutecran montrant les diffeacuterentes bases de donneacutees parmi lesquelles lutilisateur peut choisir
Figure 49 Une capture deacutecran montrant la possibiliteacute daligner deux ensembles de seacutequences indeacutependamment des bases de donneacutees de PseudomonasDW
156
Pour le traitement de la requecircte de lrsquoutilisateur nous avons deacuteveloppeacute une servlet Java
lsquoRunBlastrsquo qui se charge de prendre les donneacutees envoyeacutees via la requecircte les analyser et en
extraire les paramegravetres neacutecessaires tels que le type de seacutequence (proteacuteiquenucleacuteique) et le
sous-programme utiliseacute (blastn blastp blastxhellip) et enfin les attribuer comme valeurs
drsquoattributs drsquoun objet instancieacute drsquoune classe Java lsquoBlastSeqjavarsquo que nous avons aussi
deacuteveloppeacute Cette classe possegravede une meacutethode qui nous permet de geacuteneacuterer dynamiquement
une commande agrave envoyer au sous-programme choisi de Blast et drsquoen recevoir la reacuteponse qui
sera retourneacutee agrave lrsquoutilisateur via son navigateur Web
Le reacutesultat afficheacute pour lrsquoutilisateur est composeacute de trois sections la section lsquoGeneral
Informationrsquo qui offre des informations sur la requecircte envoyeacutee en deacuteterminant le programme
de Blast choisi le nom de la base de donneacutees agrave laquelle appartient la seacutequence soumit une
petite deacutefinition de la seacutequence en deacuteterminant le nom du gegravene le nom de la proteacuteine
lrsquoespegravece et la langueur de la seacutequence La deuxiegraveme partie lsquoDescriptionrsquo deacutecrive les diffeacuterentes
seacutequences aligneacutees avec la seacutequence en question en deacuteterminant leur numeacutero drsquoaccession
dans PseudomonasDW leurs bases de donneacutees les noms du gegravene et de proteacuteine et les
scores de similariteacutes La derniegravere section lsquoAlignmentrsquo montre les alignements obtenus en
deacuteterminant tous les paramegravetres de lrsquoalignement (le score de lrsquoalignement le pourcentage
drsquoidentiteacute et le pourcentage des gaps) et en donnant une image geacuteneacuterale de lrsquoalignement
obtenu La (Figure50) montre les trois sections du reacutesultat du Blast et un exemple
drsquoalignement
157
Figure50 Exemple de reacutesultat de Blast
6 PDWiki
Pour rendre lrsquoentrepocirct de donneacutees PseudomonasDW plus informatif nous avons
deacuteveloppeacute un Wiki scientifique nommeacute PDWiki Lrsquoideacutee principale derriegravere PDWiki est de
donner agrave la communauteacute scientifique de Pseudomonas de trouver eacutediter et ajouter des
informations relatives aux organismes les gegravenes les proteacuteines les enzymes et les voies
meacutetaboliques inteacutegreacutes dans PseudomonasDW Ces informations pourraient ecirctre drsquointeacuterecircts
diffeacuterents comme la microbiologie la biologie meacutedicale et la biologie eacutevolutive
Dans cette section de ce quatriegraveme chapitre nous donnons une vue geacuteneacuterale sur les
Wiki biologiques en deacuteterminant leurs inteacuterecirct dans le domaine biologique et aussi nous
introduisons PDWiki en deacutecrivant ses composants sa meacutethode drsquoimpleacutementation et sa
maniegravere drsquoaccegraves
158
61 Geacuteneacuteraliteacute sur les Wikis biologiques
Le succegraves des projets communautaires tels que Wikipedia100 a reacutecemment susciteacute un deacutebat
sur lapplication des wikis dans les sciences de la vie Un wiki est un outil baseacute sur le Web
sert agrave assurer la conservation et leacutedition dun ensemble de pages Web Il fournit un cadre
simple pour capturer et partager des donneacutees geacuteneacutereacutee par tout utilisateur disposant dun
navigateur Web et les autorisations approprieacutees pour modifier le contenu du wiki Il est
maintenant clair que les systegravemes de wiki offrent une varieacuteteacute davantages pour la gestion des
donneacutees et des informations biologiques Certains des objectifs speacutecifiques de wikis
biologiques (bio-wikis) comprennent
Le deacuteveloppement collaboratif et le partage des connaissances
Lrsquoannotation collaborative de contenus de bases de donneacutees
La creacuteation collaborative de contenus de bases de donneacutees
Le deacuteveloppement collaboratif et le partage de la documentation et des
connaissances permet aux collectiviteacutes de promouvoir dexploiter de discuter un
consensus sur linformation des proceacutedures des donneacutees des nouvelles expeacuteriences des
nouvelles et dautres informations varieacutees Cet objectif est motiveacute par la prise de
conscience que lexpertise et les inteacuterecircts preacutecieux sur des sujets speacuteciaux sont
geacuteneacuteralement distribueacutes et sont rarement concentreacutees dans un site ou dun groupe de
recherche unique Lobjectif est la mise en œuvre des recueils de haute qualiteacute sur des sujets
biologiques speacutecialiseacutes
Lannotation collaborative de bases de donneacutees biologiques sappuie sur le fait
que la curation preacutecise et eacutetendue dun volume croissant de donneacutees est extrecircmement
coucircteuse et chronophage Lobjectif est dameacuteliorer et deacutetendre la curation des bases de
donneacutees delagrave de ce qui est possible avec un petit groupe de curation Elle permet aux
utilisateurs dapporter leur expertise leurs expeacuteriences leurs observations et leurs reacutesultats
indeacutependamment de lorganisation de la base de donneacutees Les utilisateurs peuvent controcircler
cette curation eacutetendue corriger et mettre agrave jour des archives dans les meilleurs deacutelais Bien
que le contenu des bases de donneacutees soit annoteacute drsquoune maniegravere collaborative les bases de
donneacutees elles-mecircmes restent inchangeacutees
La creacuteation collaborative de base de donneacutees capture la structure eacutemergente dans
les domaines qui se deacuteveloppent rapidement Ces bases de donneacutees sont des indices de
donneacutees biologiques pertinentes qui se deacutegagent de communauteacutes cibleacutees et rapidement
deacuteveloppeacutees Elles forment un pis-aller entre la discussion non structureacutee dans les forums
et sur les listes de diffusion et les bases de donneacutees laquomaturesraquo qui eacutemergent par la suite
100
httpwwwwikipediaorg
159
62 PDWiki Infrastructure et contenue
PDWiki est impleacutementeacute en utilisant MediaWiki101 une application libre de logiciel wiki
baseacutee sur le Web et eacutecrite en PHP Ce logiciel est optimiseacute pour deacutevelopper efficacement et
correctement des projets de nrsquoimporte quelle taille Il est fortement personnaliseacute avec des
extensions et des paramegravetres102 de configurations multiples disponibles pour lrsquoactivation de
diffeacuterentes fonctionnaliteacutes pour ecirctre ajouteacutees ou modifieacutees103 Plusieurs robots104
automatiseacutes ou semi-automatiseacutes ont eacuteteacute deacuteveloppeacutes pour aider lrsquoeacutedition des sites de
MediaWiki
MediaWiki nous a permis de creacuteer un ensemble tregraves large de pages en utilisant de
nombreuses fonctionnaliteacutes drsquoannotations inteacutegreacutees Ces pages ont eacuteteacute creacuteeacutees au moyen
des robots que nous avons impleacutementeacute par le Framework105 Java Bot Wiki une
bibliothegraveque pour maintenir les wikis baseacutes sur MediaWiki il prend en charge lrsquoAPI de
MediaWiki et fournit des meacutethodes pour se connecter modifier et lire des collections Le
principal robot que nous avons creacuteeacute est celui qui nous a permis de parcourir les entreacutees des
bases de donnes de PseudomonasDW et de creacuteer une page de wiki pour chaque entreacutee de
lrsquoentrepocirct Ce rebot est composeacute de trois classes Java lsquoDatabaseParserrsquo lsquoTemplatersquo et lsquoBotrsquo La
classe lsquoDatabaseParserrsquo en utilisant le JAXP offre des meacutethodes pour parcourir les entreacutees
de PseudomonasDW et extraire les informations neacutecessaire pour construire la classe
lsquoTemplatersquo qui agrave son tour construit la structure de base des pages de PDWiki La classe lsquoBotrsquo
est la classe principale du robot elle se connecte agrave PDWiki et transforme la structure
geacuteneacutereacutee par la classe lsquoTemplatersquo en une page reacuteelle de PDWiki La classe lsquoBotrsquo interagie avec
PDWiki comme srsquoil est un eacutediteur humain Elle creacutee une page vide de PDWiki dans laquelle
elle reflegravete le contenue du reacutesultat de la classe lsquoTemplatersquo
PDWiki dispose de deux types de pages des pages lieacutees aux entreacutees de
PseudomonasDW lsquoPDWEPSrsquo (Figure 51) et des pages geacuteneacuteriques lsquoGPDWiPsrsquo Le
premier type vise agrave annoter les entreacutees de PseudomonasDW en tenant des informations
suppleacutementaires non disponibles dans les bases de donneacutees de PseudomonasDW Pour
chaque entreacutee de PseudomonasDW il y a une page lsquoPDWEPrsquo ce qui donne un total de
plus de 170000 pages de PDWEP Chacune de ces page est diviseacutee en mais nrsquoest pas
limiteacutee agrave sept sections principales lsquoGeneral Informationrsquo lsquoGenersquo lsquoProteinrsquo lsquoEnzymersquo lsquoPathwayrsquo et
lsquoReferencesrsquo Les utilisateurs ont la possibiliteacute deacutetendre ces sections en creacuteant dautres plus
La section des lsquoGeneral Informationrsquo contient des informations de base sur lentreacutee
correspontante dans PseudomonasDW Cela inclut le numeacutero daccession de lentreacutee dans
PseudomonasDW le nom du gegravene le nom de proteacuteines la fonction des proteacuteines et le
101
httpwwwmediawikiorgwikiMediaWiki 102
httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings 103
httpwwwmediawikiorgwikiExtension_Matrix 104
httpenwikipediaorgwikiWikipediaBots 105
httpjwbfsourceforgenet
160
nom de lorganisme Le numeacutero daccession est lieacute agrave son entreacutee associeacutee dans
PseudomonasDW via un lien hypertexte La section lsquoGeneral Informationrsquo nest pas
modifiable par lutilisateur et les donneacutees sont obtenues directement agrave partir
PseudmonasDW
La section lsquoOrganismrsquo deacutetient le nom de lespegravece de la page lsquoPDWEPrsquo agrave laquelle elle
appartient cette section peut eacutegalement contenir des informations deacutecrivant cette espegravece
Chaque espegravece de Pseudomonas inteacutegreacutees dans PseudomonasDW dispose dune page
speacutecifique (une page GPDWiP) dans PDWiki qui peut contenir des informations
suppleacutementaires sur lrsquoespegravece La page lsquoGPDWiPrsquo est (1) accessible en cliquant sur le nom
de lespegravece indiqueacute dans la section lsquoOrganismrsquo de la page lsquoPDWEPrsquo et (2) structureacutee selon au
moins six sections lsquoTaxonomyrsquo lsquoDescriptionrsquo lsquoCharacteristicsrsquo lsquoGenomersquo lsquoStatisticsrsquo et lsquoReferencesrsquo
La section lsquoStatisticsrsquo informe les utilisateurs sur le nombre drsquoentreacutees concernant chaque
espegravece inteacutegreacutee dans PseudomonasDW et fournit un lien pour acceacuteder agrave une page
lsquoGPDWiPrsquo qui liste toutes ces entreacutees En cliquant sur un eacuteleacutement de la liste lutilisateur est
conduit vers une page lsquoPDWEPrsquo qui annote lentreacutee de PseudomonasDW
Les sections lsquoGenersquo lsquoProteinrsquo lsquoEnzymesrsquo et lsquoPathwaysrsquo sont toutes modifiables Les
utilisateurs peuvent modifier ou mettre agrave jour les informations sur le gegravene preacutesenteacute par
lentreacutee de PseudomonasDW dans la section lsquoGenersquo tandis que dans la section lsquoProteinrsquo ils
peuvent modifier ou mettre agrave jour les informations relatives au produit du gegravene Ces
informations peuvent inclure des maladies associeacutees agrave des anomalies de la proteacuteine les
interactions avec autres proteacuteines des informations issues des expeacuteriences de spectromeacutetrie
de masse des proprieacuteteacutes biophysiques et physico-chimiques etc Dautre part les
sections lsquoEnzymesrsquo et lsquoPathwaysrsquo sont reacuteserveacutees respectivement pour les enzymes et les voies
meacutetaboliques lieacutees agrave la proteacuteine annoteacutee dans la section lsquoProteinrsquo Alors que les utilisateurs
peuvent modifier ou ajouter dans la section lsquoEnzymesrsquo par exemple les informations des
reacuteactions catalyseacutees par lrsquoenzyme les substances non proteacuteiques neacutecessaires pour les
activiteacutes enzymatiques le meacutecanisme reacuteglementaire de lrsquoenzyme il est possible de modifier
les voies meacutetaboliques associeacutees en donnant une description geacuteneacuterale ou en eacuteditant des
informations suppleacutementaires sur leurs listes des meacutetabolites ou leurs diffeacuterents
composants dans la section lsquoPathwaysrsquo
Enfin la section lsquoReferencesrsquo contient des citations de la litteacuterature qui sont les sources
dinformation utiliseacutees pour modifier le lsquoPDWEPrsquo Chaque reacutefeacuterence est numeacuteroteacutee et
contient plusieurs sous-sections permettant une description preacutecise dune citation donneacutee
161
Figure 51 Un exemple dune page PDWEP Elle concerne la page de PDWiki creacuteeacutee pour enrichir et annoter lentreacutee PAE00524 de PseudomonasDW
lsquoGPDWiPsrsquo sont toutes les pages de PDWiki autres que lsquoPDWEPsrsquo (Figure 52) Ils
contiennent des informations geacuteneacuteriques relatives aux espegraveces de Pseudomonas inteacutegreacutees
dans PseudomonasDW ou un de leurs composeacutes cellulaires Des exemples de lsquoGPDWiPsrsquo
162
pourrait ecirctre une espegravece ou une page souche (ex la page de Pseudomonas aeruginosa ou la
page de Pseudomonas aeruginosa PAO1) une page relieacutee agrave une enzyme (page proteacutease
alcaline) une page drsquoune toxine intracellulaire (la page ExoA la page ExoS) une page des
gegravenes relieacutee agrave une espegravece (la page Pseudomonas aeruginosa PAO1 genes) et ainsi de suite
Figure 52 Un scheacutema deacutescriptif de la structure de PDWiki Il montre la structure de base de PDWiki et les relations entre ses pages et PseudomonasDW (PDW)
lsquoGPDWiPsrsquo ont eacuteteacute creacuteeacutes pour tenir plus drsquoannotations De point de vue modeacutelisation
ces pages pourraient ecirctre consideacutereacutes dans certains cas comme une geacuteneacuteralisation de
certains lsquoPDWEPsrsquo on peut citer le cas les pages des gegravenes des espegraveces qui contiennent une
liste alphabeacutetique ordonneacutee de tous les gegravenes dune espegravece de Pseudomonas et agrave partir de
cette page il est possible daller agrave un lsquoPDWEPrsquo speacutecifique en cliquant sur le nom dun gegravene
Dautres cas des pages lsquoGPDWiPsrsquo sont des speacutecialisations de certains pages de lsquoPDWEPsrsquo
Cest le cas par exemple dune information tenue par une page lsquoGPDWiPrsquo sur une voie
meacutetabolique apparaissant dans une page lsquoPDWEPrsquo
63 Comment naviguer dans PDWiki
Pour les utilisateurs qui ne sont pas familiariseacutes avec les wikis baseacutes sur MediaWiki la
recherche est le processus le plus simple et plus puissant qui leurs permet de trouver des
pages speacutecifiques dans PDWiki Une barre de recherche est situeacutee sur le cocircteacute supeacuterieur
163
gauche de chaque page constitueacutee par un champ de recherche un bouton lsquoGOrsquo qui apparaicirct
sur toutes les pages de PDWiki agrave cocircteacute dun bouton lsquoSearchrsquo La fonction du bouton lsquoGOrsquo est
de naviguer directement agrave la page dont son nom est le texte eacutediteacute dans le champ de
recherche alors que la fonction de bouton lsquoSearchrsquo est la recherche du texte dans toutes les
pages de PDWiki Ainsi lutilisateur peut commencer agrave trouver linformation souhaiteacutee au
sein de PDWiki en utilisant le formulaire de recherche
Les utilisateurs de PDWiki peuvent eacutegalement obtenir des informations sur chaque
espegravece ou souche dans PDWiki en suivant les liens sur la page drsquoaccueil qui conduisent agrave
une page lsquoGPDWiPrsquo En outre il y a une sorte de navigation bidirectionnelle entre
PseudomonasDW et PDWiki agrave partir dune entreacutee de PseudomonasDW il est possible
daller vers la page lsquoPDWEPrsquo correspondante dans PDWiki et vice-versa
Toutes les pages de PDWiki sont accessibles au public En revanche il est obligatoire
de srsquoenregistrer pour eacutediter ou modifier des pages de PDWiki Crsquoest une deacutemarche simple
et rapide il suffit que lrsquoutilisateur creacutee un compte utilisateur personnel Cette action a
plusieurs avantages certains dentre eux sont
Les utilisateurs seront capables de reconnaicirctre les uns des autres par lsquousermanersquo
quand quelquun fait des modifications au niveau des pages de PDWiki
Lutilisateur aura sa propre page ougrave il peut eacutecrire des informations sur lui-mecircme et
une page de discussion dont il peut lrsquoutiliser pour communiquer avec dautres
utilisateurs
Lutilisateur sera capable de garder une trace des modifications apporteacutees aux pages
qui lui inteacuteresse en utilisant la fonctionnaliteacute lsquowatchlistrsquo106
7 DISCUSSION
Certaines espegraveces de Pseudomonas sont deacutesormais consideacutereacutees comme des organismes
modegraveles et ont eacuteteacute largement eacutetudieacutees en raison de leur reacutesistance antimicrobienne (Rehm
2009) diverse capaciteacutes meacutetaboliques et sa capaciteacute de causer des infections graves
Plusieurs systegravemes de haute qualiteacute pour la recherche de donneacutees biologiques de
Pseudomonas et leurs annotations ont eacuteteacute citeacutes dans lintroduction de ce chapitre Dans
cette section nous preacutesentons une bregraveve comparaison entre PseudomonasDW et la base
de donneacutees laquo Pseudomonas Genome database raquo (Winsor et al 2009) qui est lune des
bases de donneacutees ceacutelegravebres inteacuteresseacutees par lrsquoannotation de Pseudomonas et la plus similaire
agrave la philosophie de PseudomonasDW Cette base de donneacutees se concentre sur
lannotation du geacutenome de Pseudomonas aeruginosa PAO1 et fournit des informations les
plus pertinentes pour la recherche de Pseudomonas aeruginosa Pour dautres souches de
106
httpwwwmediawikiorgwikiManualWatchlist
164
Pseudomonas elle donne un grand ensemble dinformations mais reste modeste en
comparant agrave Pseudomonas aeruginosa PAO1 En revanche aux bases de donneacutees
PseudomonsDW qui se concentrent sur les proteacuteines Pseudomonas la base de donneacutees
laquo Pseudomonas Genome database raquo se concentre sur les annotations de gegravenes et de nrsquooffre
pas damples informations relatives aux autres concepts biologiques ougrave les proteacuteines
interviennent comme les voies meacutetaboliques et les reacuteactions enzymatiques Cela pourrait
ecirctre clairement remarqueacute si on compare par exemple lentreacutee du gegravene laquocoxB raquo dans la base
de donneacutees laquo Pseudomonas Genome database raquo (Locus Tag PA0105) et son entreacutee
eacutequivalente dans la base de donneacutees de Pseudomonas aeruginosa PAO1 de
PseudomonsDW (ID PAE02505) La premiegravere base de donneacutees ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine codeacutee par coxB En outre des
informations sur les voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees
aux noms de ces voies et quelques liens vers la base de donneacutees KEGG Lentreacutee de
PseudomonasDW liste des sections speacutecifiques pour les enzymes et les voies
meacutetaboliques Dans le cas de lentreacutee de coxB dans PseudomonasDW elle fournit des
informations riches sur lrsquoenzyme sous-jacent relative agrave la proteacuteine nommeacutee cytochrome-c
oxydase et deux voies auxquelles participe la proteacuteine la voie de la phosphorylation
oxydative et la voie meacutetaboliques
Dautre part PseudomonasDW fournit des informations sur un ensemble plus
vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave 10 dentre eux
ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome database raquo Ces espegraveces
sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa NCGM2S1 Pseuomonas
aeruginosa 152504 Pseuomonas aeruginosa 138244 Pseudomonas putida BIRD-1
Pseudomonas putida S16 Pseuomonas stutzeri ATCC 17588 Pseuomonas stutzeri DSM
4166 et Pseudomonas chlororaphis
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
165
CONCLUSIONS ET PERSPECTIVES
166
Conclusions eacutet peacuterspeacutectiveacutes
Le genre Pseudomonas de la famille des Pseudomonaceae reacutepond agrave la deacutefinition suivante
bacilles agrave Gram neacutegatif aeacuterobies stricts agrave lexception de certaines pouvant utiliser le NO3
comme accepteur deacutelectrons Les Pseudomonas sont des bacteacuteries ubiquitaires que lon
rencontre dans les sols sur les veacutegeacutetaux et surtout dans les eaux douces et marines Leur
mobiliteacute est assureacutee par plusieurs flagelles polaires et elles ont un meacutetabolisme meacutesophile
et chimio-organothorphe la plupart eacutetant saprophytes Quelques espegraveces comme P
syringae sont phytopathogegravenes et certaines peuvent causer des infections chez lhumain
Particuliegraverement P aeruginosa reconnu comme pathogegravene opportuniste et causant des
infections pulmonaires mortelles chez les patients atteints de fibrose kystique
Vu lrsquoimportance biologique fournie par les Pseudomonas dans le domaine de la
recherche des eacutetudes moleacuteculaires approfondis ont eacuteteacute reacutealiseacutees par les techniques drsquoeacutetudes
geacutenomiques dites agrave haut deacutebit qui geacutenegraverent un grand nombre drsquoinformations
Lrsquoaccumulation de ces informations dans des bases de donneacutees diffeacuterentes a conduit agrave une
heacuteteacuterogeacuteneacuteiteacute syntaxique et seacutemantique importante De larges volumes de donneacutees sont
actuellement disponibles publiquement les types de donneacutees sont divers et les ressources
sont tregraves nombreuse Souvent les donneacutees provenant de diffeacuterentes ressources preacutesentent
une heacuteteacuterogeacuteneacuteiteacute seacutemantique et syntaxique tregraves importante
Lrsquoheacuteteacuterogeacuteneacuteiteacute syntaxique se manifeste tout drsquoabord au niveau des formats pour
deacutecrire le contenu de sources On trouve souvent le format ASN1 (notation formelle pour
deacutecrire les donneacutees transmises lors de protocoles drsquoeacutechanges) (eg Entrez) mais aussi des
formats plus standard tels que XML (eg GenBank) A noter que les banques proposent
souvent diffeacuterents formats drsquoexportation de leurs donneacutees Cette heacuteteacuterogeacuteneacuteiteacute de formats
est accompagneacutee par une diversiteacute des modegraveles de donneacutees relationnel (eg Swiss-Prot)
objet (eg Gus) ou semindashstructureacute (eg GenBank)
Lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique recouvre plusieurs aspects Elle concerne en premier
lieu le focus Chaque base se focalise sur un type drsquoobjet biologique (eg le focus de swiss-
Prot est la proteacuteine celui de GenBank est le gegravene celui de PDB la structure 3D de la
proteacuteine) Aussi lrsquoheacuteteacuterogeacuteneacuteiteacute seacutemantique est relative agrave la diversiteacute des modes de
deacutesignation des entiteacutes Diffeacuterents vocabulaire sont utiliseacutes pour annoter les seacutequences et la
167
confiance accordeacutee agrave ces annotations est rarement totale Par ailleurs on retrouve pour une
mecircme entiteacute (proteacuteine ou gegravene) plusieurs noms et ce agrave lrsquointeacuterieur drsquoune mecircme banque
Une autre forme de lrsquoheacuteteacuterogeacuteneacuteiteacute provient des langages de requecirctes Souvent les
langages sont de simples formulaires (combinaisons de mots agrave chercher dans un texte)
dans le cas de portails ou de simples banques de donneacutees Mais on peut aussi trouver des
langages structureacutes tels que SQL (Genopage) ou OQL (Gus)
La grande diversiteacute de ces donneacutees stockeacutees lrsquoheacuteteacuterogeacuteneacuteiteacute des repreacutesentations
lrsquoautonomie des sources les unes par rapport des autres rendre difficile voire impossible
leur utilisation combineacutee par les biologistes Aujourdrsquohui lrsquoun des grands deacutefis de la
bioinformatique est de permettre aux biologistes drsquoacceacuteder efficacement agrave plusieurs sources
de donneacutees ayant chacune un scheacutema global unifieacute via des proceacutedures automatiques Cette
automatisation devrait aboutir agrave une veacuteritable coopeacuteration entre le biologiste et la machine
pour une recherche plus efficace des informations et une meilleure exploitation des
reacutesultats
Trois grandes approches pour lrsquointeacutegration de sources drsquoinformation ont alors eacuteteacute
proposeacutees les approches navigationnel entrepocirct et meacutediateur
Dans lrsquoapproche entrepocirct de donneacutees (approche mateacuterialiseacutee) les donneacutees sont
extraites des diffeacuterentes sources et combineacutees dans un scheacutema global Par contre dans les
deux autres approches (approche non mateacuterialiseacutee) les donneacutees restent au niveau des
sources ce sont des portails et des meacutediateurs
Lrsquointeacutegration navigationnelle consiste agrave regrouper les bases de donneacutees entre elles agrave
partir des identifiants qursquoelles partagent Il srsquoagit de la meacutethode la plus simple accessible agrave
tous les utilisateurs sans apprentissage preacutealable Elle reprend le principe appliqueacute lors de
lrsquoextraction manuelle en seacutelectionnant les attributs agrave extraire de chacune des sources
demandeacutees
Les deux derniegraveres approches la construction drsquoun entrepocirct de donneacutees ou
lrsquointeacutegration de donneacutees virtuelle agrave lrsquoaide de vues ont besoin toutes les deux drsquoun modegravele de
donneacutees commun afin de repreacutesenter les donneacutees extraites des sources locales
La deacutemarche de creacuteation drsquoun entrepocirct de donneacutes consiste agrave traduire massivement
les donneacutees extraites des sources locales afin de les rendre compatibles avec le modegravele de
donneacutees proposeacute agrave lrsquoutilisateur Cette adaptation des donneacutees preacutesente un certain nombre
drsquoinconveacutenients tels que lrsquoespace neacutecessaire au stockage et la mise agrave jour qui est tregraves
couteuse en temps et en trafic sur le reacuteseau Le systegraveme offre geacuteneacuteralement un langage de
requecirctes qui permet drsquoappliquer des opeacuterateurs drsquoextraction de donneacutees pour
La meacutediation de donneacutees permet drsquointeacutegrer uniquement les donneacutees souhaiteacutees par
lrsquoutilisateur qui exprime ses besoins au travers drsquoune requecircte poseacutee sur un scheacutema global
168
preacutealablement deacutefini Les donneacutees sont agrave jour en permanence puisque relues agrave chaque fois
qursquoune nouvelle demande parvient au systegraveme Lrsquoespace demandeacute pour stocker les donneacutees
est faible et deacutedieacute au meacutecanisme de mise en cache des requecirctes srsquoil a eacuteteacute mis en place par
les concepteurs Les difficulteacutes majeures de la meacutediation reposent essentiellement sur la
transformation de requecirctes destineacutees aux sources de donneacutees locales et la faciliteacute
drsquoeacutevolution du scheacutema global en cas drsquoajout ou de retrait drsquoune source ce qui se produit
tregraves freacutequemment sur le Web
Dans ce cadre notre travail a pour finaliteacute la reacutealisation drsquoun environnement
inteacutegratif de donneacutees biologiques concernant les Pseudomonas Ce travail entre dans le
cadre drsquoune collaboration entre notre laboratoire de recherche LABIPHABE et le groupe
KHAOS de lrsquouniversiteacute de Malage
Dans cette thegravese nous nous sommes inteacuteresseacutes au problegraveme drsquointeacutegration de
donneacutees sur le Web en nous focalisant particuliegraverement sur les problegravemes poseacutes par les
sources de donneacutees biologiques Les deux derniers chapitres de ce meacutemoire srsquoarticulent
autour de la mise en œuvre drsquoun systegraveme inteacutegratif pour lrsquointeacutegration de donneacutees
biologiques
Les deux premiers chapitres mettent en eacutevidence les diffeacuterentes caracteacuteristiques des
sources de donneacutees biologiques et comportent une description des divers niveaux
drsquoheacuteteacuterogeacuteneacuteiteacute entre les sources Ils dressent aussi un eacutetat de lrsquoart qui illustre chacune des
solutions majoritairement suivies en informatique (entrepocirct meacutediateur et systegraveme
navigationnel) et montrent comment elles ont eacuteteacute appliqueacutees aux donneacutees biologiques
Dans le troisiegraveme chapitre nous avons proposeacute une approche hybride qui combine
entre les avantages de lrsquoarchitecture entrepocirct de donneacutees et celle de meacutediateur pour une
inteacutegration de donneacutees forte et efficace Cette approche a eacuteteacute adapteacutee au domaine
biologique afin de proposer une solution drsquointeacutegration simple et flexible
Le quatriegraveme chapitre a eacuteteacute conccedilu pour deacutecrire une plateforme complegravete qui offre
des informations allant du gegravene agrave la voie meacutetabolique et qui reacuteconcilie ces donneacutees afin
drsquoavoir une vue unifieacutee des informations disponibles sur une proteacuteine donneacutee
1 REacuteSUMEacute DES CONTRIBUTIONS
Conscients du fait que les sources biologiques aujourdrsquohui ouvertes sur le Web ne
fournissent pas encore les meacutetadonneacutees ou ne garantissent pas les droits neacutecessaires agrave leur
exploitation de faccedilon aiseacutee par le biais de proceacutedures (semi-automatiseacutees) nos travaux se
sont concentreacutes sur la reacutesolution drsquoune classe de problegravemes drsquointeacutegration qui se rencontrent
169
principalement agrave lrsquoeacutechelle individuelle lrsquoobjectif viseacute eacutetant drsquoautomatiser autant que
possible les phases drsquointerrogation des sources de donneacutees biologiques heacuteteacuterogegravenes divers
et reparties sur le web et de reacuteconciliation des reacutesultats partiels Les contributions de nos
travaux concernent plusieurs points
Adaptation drsquoune approche hybride pour lrsquointeacutegration seacutematique des donneacutees
biologiques de Pseudomonas Sp
La quantiteacute des donneacutees issues de lrsquoeacutetude biotechnologique de lrsquoespegravece de Pseudomonas
requeacuterant un accegraves agrave une grande diversiteacute de donneacutees reacuteparties dans de multiples sources de
donneacutees Nous avons donc opteacute pour le deacuteveloppement drsquoun entrepocirct de donneacutees et ainsi
proposeacute des solutions pour une inteacutegration systeacutematique et reacuteconcilieacutee de donneacutees
heacuteteacuterogegravenes
PseudmonasDW est un entrepocirct de donneacutees semi-structureacute pour stocker geacuterer et
inteacutegrer les informations biologiques collecteacutees de sources de donneacutees via le Web
PseudmonasDW se focalise sur lrsquointeacutegration de donneacutees de pseudomonas sp
Pour la conception du systegraveme PseudmonasDW nous avons utiliseacute le processus
drsquointeacutegration qualifieacute drsquoascendant (ou bottom-up) ougrave nous sommes partis du besoin de
repreacutesenter au sein drsquoun mecircme scheacutema les donneacutees souhaiteacutees pour ensuite choisir les
sources de donneacutees ainsi que le processus drsquointeacutegration approprieacutes PseudomonasDW
integravegre des donneacutees geacutenomiques proteacuteiques enzymatiques et meacutetaboliques agrave partir de cinq
sources de donneacutees divers et reacuteparties sur le web Genbank PRODORIC Uniprot
BRENDA et KEGG
Ainsi pour lrsquointeacutegration les donneacutees nous avons combineacute les deux approches
mateacuterialiseacute et virtuelle pour exploiter leurs avantages dans un nouveau environnement
hybride Dont nous avons utiliseacute les services de donneacutees pour extraire et transformer les
donneacutees collecteacutees agrave partir des sources de donneacutees Les adaptateurs forment une partie
importante dans les services de donneacutees qui fournissent des moyens pour interroger et
correacuteler les diffeacuterents types drsquoinformations inteacutegreacutes Les services de donneacutees initialisent le
processus drsquoETL dont les adaptateurs sont consideacutereacutes comme une interface qui reccedilue des
requecirctes XQuery interroge les sources de donneacutees extraite les donneacutees souhaiteacutes et les
transforme en un modegravele commun utiliseacute par le SB-KOM La seacutemantique de nos services
de donneacutees inclut des informations sur le scheacutema de la source et la provenance de donneacutees
Contrairement agrave lrsquoentrepocirct de donneacutees GEDAW citeacute dans la partie introductive de ce
manuscrit garder la traccedilabiliteacute et la provenance de donneacutees est neacutecessaire dans le domaine
de la bioinformatique dont il est tregraves important de savoir quelle source de donneacutees a eacuteteacute
utiliseacutee dans lrsquoextraction drsquoune telle donneacutee Nous avons deacuteveloppeacute cinq services de
donneacutees un service pour une source de donneacutees
PseudomonasDW integravegre des sources de donneacutees offrant des informations
chevauchantes Une agreacutegation drsquoinformation a eacuteteacute alors requise pour identifier des objets
170
eacutequivalents drsquoun point de vue seacutemantique Nous avons appliqueacute une inteacutegration seacutemantique
pour supprimer toute redondance au niveau du scheacutema de lrsquoentrepocirct Lrsquointeacutegration
seacutemantique dans PseudomonasDW est fondeacutee sur la construction drsquoun scheacutema global
inteacutegrateur et vise agrave convertir les donneacutees des sources en termes des donneacutees dans ce
scheacutema global inteacutegrateur
Dans PseudmonasDW nous avons suivi lrsquoapproche GAV (Global-As View) qui
consiste agrave deacutefinir le scheacutema global en fonction des scheacutemas locaux des sources de donneacutees
Notre propose eacutetait lrsquoutilisation drsquoune ontologie (PseudomonasDW Ontology) comme un
scheacutema global de lrsquoentrepocirct Notre ontologie a eacuteteacute construite par la reacuteconciliation de tous
les diffeacuterents scheacutemas de sources en une seule ontologie coheacuterente
Lrsquoajout drsquoune source de donneacutees exige une modification profonde du scheacutema global
de PseudomonasDW Contrairement aux entrepocircts de donneacutees GenMapper et GeWare
citeacutes dans la partie introductive de ce manuscrit qui sont adapteacutes agrave lrsquoajout de nouvelle
sources de donneacutees par lrsquoutilisation du modegravele geacuteneacuterique GAM Ce modegravele modeacutelise les
sources de donneacutees plutocirct que leur contenu La modification de scheacutema global au niveau
de GenMapper et GeWareest consideacutereacutee comme une extension du scheacutema plutocirct qursquoune
modification profonde
Les diffeacuterents composants du SB-KOM (controcircleur planificateur de requecircte et
lrsquoeacutevaluateurinteacutegrateur) participent dans le processus ETL dans PSeudomonasDW Le
meacutediateur est baseacute sur le reacutepertoire seacutemantique SD-Core dans lequel nous avons enregistreacute
notre ontologie les scheacutemas des sources et nos regravegles de correspondances Le SD-Core a
joueacute le rocircle du middleware entre PseudomonasDW et le SB-KOM
Les instances de notre scheacutema inteacutegrateur servent drsquoeacutetape de transformation
preacutealable au peuplement de PseudomonasDW Lrsquoutilisation de lrsquoontologie et des instances
permet lrsquoinclusion de raisonnement aux diffeacuterents niveaux Les diffeacuterentes instances
retourneacutees par le SB-KOM sont chargeacutees dans PseudmonasDW apregraves une translation
automatique en XML par le biais de quelques bibliothegraveques du Java Lrsquoutilisation drsquoun
systegraveme meacutediateur pour une inteacutegration seacutemantique de donneacutees dans un entrepocirct de
donneacutees nous a permis drsquoexploiter leurs avantages dans une nouvelle approche Drsquoune part
les donneacutees sont physiquement stockeacutees dans lrsquoentrepocirct pour ecirctre precirctes agrave une
interrogation directe et rapide Et drsquoautre part lrsquointeacutegration et la mise agrave jour des donneacutees
sont virtuellement acheveacutees en utilisant le meacutediateur
Les bases de donneacutees UniProt et GenBank creacuteent des listes de diffusion Ces listes
sont destineacutees agrave la distribution des messages qui annoncent les mises agrave jour effectueacutees au
niveau de ces deux bases de donneacutees Lrsquoabonnement agrave ces listes nous a permis de recevoir
les derniegraveres modifications et de garder une trace des mises agrave jour des entreacutees individuelles
Les sources de donneacutees PRODORIC BRENDA et KEGG sont peacuteriodiquement
mis agrave jour et fournissent des archives complegravetes qui contiennent uniquement les entreacutees
171
actualiseacutees Ces archives nous ont permis de speacutecifier quelles entreacutees inteacutegreacutees dans
PseudomonasDW ont eacuteteacute mis agrave jour Lorsque le systegraveme est informeacute par les entreacutees
modifieacutees la mise agrave jour des donneacutees est pratiquement inteacutegreacutee agrave laide du SB-KOM
Nous avons deacuteveloppeacute un module Java qui geacutenegravere des requecirctes conjonctives et les
envoie au systegraveme SB-KOM pour performer les processus drsquoextraction et de
transformation SB-KOM fait appel aux services de Web que nous avons deacuteveloppeacute pour
extraire uniquement les donneacutees modifieacutees agrave partir des entreacutees originales Par la suite il est
possible de lancer automatiquement le processus dinteacutegration pour mettre agrave jour lentrepocirct
de donneacutees en remplaccedilant seulement les donneacutees obsolegravetes par elles actualiseacutees
Dans PseudomonasDW le systegraveme est une plate-indeacutependant et nrsquoexige aucune
installation local Il est disponible pour lrsquoutilisateur via une interface Web contrairement agrave
certains entrepocircts exemple de BioWarehouse qui est un systegraveme linux-deacutependant et exige
une installation locale Cela rendre lrsquoutilisation de ce type de systegraveme une tacircche fastidieuse
surtout pour les biologistes qui ne maicirctrisent pas lrsquooutil informatique et particuliegraverement la
plateforme Linux
Avec PseudmonasDW nous aimerions fournir aux biologistes un outil accessible
pour eacutelucider les processus cellulaire drsquointeacuterecirct en utilisant une strateacutegie de systegraveme inteacutegreacute
Deacuteveloppement drsquoune plateforme Biologique pour les Pseudomonas
Pour le deacuteveloppement des bases de donneacutees de PseudomonasDW nous nous sommes
baseacutes sur les approches qui abordent la probleacutematique de lentreposage de documents
XML Nous avons perccedilu un entrepocirct XML comme une collection de documents XML qui
contiennent les donneacutees extraites Nous avons utiliseacute eXist pour stocker nos documents
XML dans des bases de donneacutees natives eXist nous a permis de charger automatiquement
(en utilisant les diffeacuterentes ses diffeacuterentes options) les documents XML dans 33
collections une collection pour chaque espegravece entreposeacute dans PseudomonasDW
Dans le but de faciliter et drsquoacceacuteleacuterer le processus drsquointerrogation des bases de
donneacutees de PseudomonasDW nous avons deacuteveloppeacute des indexes qui sont creacuteeacutes et
maintenus automatiquement dans eXist Nous avons suivis la nouvelle proceacutedure
drsquoindexation baseacutee sur les noms des eacuteleacutements Cela nous a permis de retrouver facilement
tous les eacuteleacutements drsquoun certain nom quelle que soit leur imbrication
Les bases de donneacutees de PseudomonasDW sont publiquement accessibles via une
interface Web disponible sur le lien httpwwwpseudomonasdwkhaosumaes Crsquoest une
application web que nous avons deacuteveloppeacute en utilisant principalement quelques
technologies du Web et de Java (JSP Java Servlet API XHTML CSS XSLT JavaScript
JQuery) Lrsquoapplication Web est impleacutementeacutee sur le serveur Web Apache 20
172
Lrsquointerface utilisateur de PseudomonasDW incorpore des outils bioinformatiques
pour permettre aux utilisateurs drsquoanalyser et comparer les donneacutees stockeacutees Nous avons
incorporeacute lrsquooutil GBrowse qui permet la navigation dans les geacutenomes et leur visualisation il
affiche une repreacutesentation graphique dune section dun geacutenome ainsi que les positions des
gegravenes en plus dautres eacuteleacutements fonctionnels Nous avons inteacutegreacute aussi lrsquooutil Blast qui est
un programme permettant de reacutealiser des alignements et des comparaisons locaux entre
deux seacutequences (nucleacuteiques ou proteacuteiques)
PseudomonasDW contient 170000 entreacutes et fournit des informations sur un
ensemble tregraves vaste despegraveces de Pseudomonas Actuellement 33 espegraveces sont inteacutegreacutes ougrave
10 dentre eux ne srsquoaffichent pas dans la base de donneacutees laquo Pseudomonas Genome
database raquo Ces espegraveces sont pseudomonas aeruginosa M18 Pseuomonas aeruginosa
NCGM2S1 Pseuomonas aeruginosa 152504 Pseuomonas aeruginosa 138244
Pseudomonas putida BIRD-1 Pseudomonas putida S16 Pseuomonas stutzeri ATCC
17588 Pseuomonas stutzeri DSM 4166 et Pseudomonas chlororaphis
La base de donneacutees laquo Pseudomonas Genome database raquo ne donne aucune
information sur les enzymes associeacutees agrave la proteacuteine En outre des informations sur les
voies meacutetaboliques ougrave le produit du gegravene est impliqueacute sont limiteacutees aux noms de ces voies
et quelques liens vers la base de donneacutees KEGG Lentreacutee de PseudomonasDW liste des
sections speacutecifiques pour les enzymes et les voies meacutetaboliques
Le fait deacutetendre PseudomonasDW par un wiki biologique (PDWiki) ce qui nest
pas le cas dans la base de donneacutees laquo Pseudomonas Genome database raquo est de donner agrave la
plate-forme la possibiliteacute de migrer agrave partir dun ensemble de bases de donneacutees biologiques
classiques vers un tregraves riche reacutefeacuterentiel de connaissances pour les Pseudomonas ougrave les
donneacutees biologiques sont enrichies par la communauteacute drsquoannotations Ceci permet aux
utilisateurs de PseudomonasDW de collaborer entre eux en eacuteditant et en ajoutant
davantage des donneacutees pour la plate-forme et dinteacutegrer les connaissances speacutecialiseacutees de
nombreux groupes de chercheurs appartenant agrave des disciplines biologiques diffeacuterentes
2 OUVERTURE ET PISTES DE RECHERCHE
La reacutecente expansion des sources de donneacutees biologiques sur le Web les a mises agrave
disposition drsquoun nombre sans cesse croissant de chercheurs ouvrant ainsi de tregraves
nombreuses perspectives drsquoinnovation La biologie a ainsi pris une nouvelle dimension
anciennement diviseacutee en plusieurs disciplines elle est devenue inteacutegrative et offre
deacutesormais de belles perspectives drsquoappreacutehension de la complexiteacute du monde vivant
Lrsquointeacutegration de donneacutees vise agrave combler le fosseacute qui existe entre producteurs et
consommateurs de donneacutees particuliegraverement dans ce domaine Dans le cadre de cette
thegravese nous avons orienteacute nos recherches afin de rapprocher ces diffeacuterents acteurs
173
Nous pensons ameacuteliorer agrave court terme les travaux que nous avons exposeacutes en nous
focalisant sur plusieurs points particuliers
Concernant lrsquoarchitecture de lrsquoentrepocirct PseudomonasDW
Associer des meacuteta-donneacutees deacutecrivant plus preacuteciseacutement la confiance
accordeacutee agrave la source et sa qualiteacute estimeacutee
Deacuteveloppement drsquoun algorithme de mise agrave jour pour garantir la
performance des donneacutees stockeacutees au niveau de PseudomonasDW
Automatiser la recherche de correspondance entre eacuteleacutements des
scheacutemas locaux des sources et le scheacutema global de lrsquoentrepocirct pour
rendre lrsquoajout des nouvelles sources de donneacutees plus facile
Concernant lrsquointeacutegration des donneacutees
Inteacutegrer non seulement des sources de donneacutees mais aussi des services
Web cette technologie srsquoest grandement deacuteveloppeacutee ces derniegraveres
anneacutees dans le domaine biologique et les perspectives offertes
semblent tregraves prometteuses
Associer notre entrepocirct de donneacutees agrave des meacutethodes drsquoanalyse et de
preacutediction plus eacutevolueacutees que celles que nous avons utiliseacutees pour
fouiller et comparer les donneacutees inteacutegreacutees
174
GLOSSAIRE
175
Glossaireacute
Acide amineacute Monomegravere constitutif des proteacuteines Il en existe 20 codeacutes par un systegraveme agrave trois
nucleacuteotides (codons) dans lrsquoARN
ADN (Acide DeacutesoxyriboNucleacuteique) LrsquoADN est la forme de stockage de lrsquoinformation
geacuteneacutetique du geacutenome de tous les ecirctres vivants Cette information est repreacutesenteacutee sur le
chromosome par une suite lineacuteaire de gegravenes seacutepareacutes par des reacutegions intergeacuteniques LrsquoADN
macromoleacutecule biologique formeacutee de deacutesoxyribonucleacuteotides est un des constituants des
chromosomes Les moleacutecules drsquoADN srsquoeacutetirent en un tregraves long fil constitueacute par un enchaicircnement
(seacutequence) preacutecis drsquouniteacutes eacuteleacutementaires que sont les nucleacuteotides La structure originale de lrsquoADN
formeacutee de deux brins compleacutementaires enrouleacutes en heacutelice (double heacutelice) lui permet de se
dupliquer en deux moleacutecules identiques entre elles et identiques agrave la moleacutecule megravere lors du
pheacutenomegravene de reacuteplication
Agreacutegation Action de calculer les valeurs associeacutees aux positions parents des dimensions
hieacuterarchiques Cette agreacutegation peut ecirctre une somme une moyenne ou tout autre processus plus
complexe
Annotation Lrsquoannotation du geacutenome consiste agrave preacutedire et localiser lrsquoensemble des seacutequences
codantes (gegravenes) du geacutenome crsquoest-agrave-dire agrave deacuteterminer et identifier leur structure (annotation
syntaxique ou structurale) leur fonction (annotation fonctionnelle) ainsi que les relations entre les
entiteacutes biologiques relatives au geacutenome (annotation relationnelle) Lrsquoinformation reacutesultante enrichit
les sources de donneacutees biologiques
API (Application Programming Interface) Interface pour langages de programmation
mateacuterialiseacutees par des primitives permettant agrave une application drsquoacceacuteder agrave des programmes systegraveme
pour par exemple communiquer ou extraire des donneacutees
ARN (Acide RiboNucleacuteique) LrsquoARN est une macromoleacutecule biologique formeacutee de
ribonucleacuteotides permettant de stocker et de traiter lrsquoinformation dans la cellule LrsquoARN est une
seacutequence drsquoacide nucleacuteique lineacuteaire simple brin On distingue les ARN messagers ARN de
transfert les ARN ribosomaux les ARN nucleacuteaires et les ARN cytoplasmiques
Blast Initialement Blast est un outil de recherche drsquoinformations dans les banques de seacutequences
comportant un algorithme de comparaison de seacutequences Aujourdrsquohui on utilise le terme Blast pour
deacutenoter uniquement lrsquoalgorithme de comparaison de seacutequences Il existe de nombreuses versions
drsquoalgorithmes Blast de comparaisons de seacutequences agrave travers les sources Il existe des Blasts qui
permettent la comparaison de seacutequences drsquoacides amineacutes donc de comparer les seacutequences des
proteacuteines et drsquoautres qui comparent les seacutequences de nucleacuteotides dont sont constitueacutes les gegravenes
Certaines des versions disponibles sont doteacutees drsquoheuristiques de paramegravetres et drsquoautres non
Chromosome Ensemble drsquoeacuteleacutements drsquoinformation lieacutes entre eux dans une mecircme moleacutecule
drsquoADN (en biologie cellulaire) le chromosome est une structure cytologique reacutesultant drsquoune
hypercondensation de la chromatine permettant la reacuteparation du mateacuteriel geacuteneacutetique entre les
cellules filles lors de la mitose ou de la meacuteiose Chromosome vient de chromos couleur allusion
176
agrave leur capaciteacute de fixer les colorants Les chromosomes ne sont visibles en geacuteneacuteral que durant la
division cellulaire
Cluster (grappe en franccedilais) Architecture de groupes drsquoordinateurs utiliseacutee pour former de gros
serveurs Chaque machine est un nœud du cluster lrsquoensemble est consideacutereacute comme une seule et
unique machine permettant drsquoobtenir une grande puissance de traitement Ce type drsquoarchitecture
est utiliseacute principalement pour le deacutecisionnel le transactionnel et lrsquoentrepocirct de donneacutees
Data Mart Base de donneacutees orienteacutee sujet mise agrave disposition des utilisateurs dans un contexte
deacutecisionnel deacutecentraliseacute
Dimension Axe drsquoanalyse correspondant le plus souvent aux sujets drsquointeacuterecirct de lrsquoentrepocirct de
donneacutees exemple dimension temporelle dimension proteacuteique hellip
Drill-down Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute supeacuterieur
conformeacutement agrave la hieacuterarchie deacutefinie sur la dimension Une fonction drsquoagreacutegation (somme
moyenne hellip) speacutecifieacutee pour la mesure et la dimension indique comment sont calculeacutees les valeurs
du Niveau supeacuterieur agrave partir de celles du niveau infeacuterieur
DTD Une DTD acronyme anglais signifiant Document Type Definition se traduisant par
Deacutefinition de Type de Document est un document permettant de deacutecrire un modegravele de document
SGML ou XML Une DTD indique les noms des eacuteleacutements pouvant apparaicirctre et leur contenu
constitueacute par leurs sous-eacuteleacutements et leurs attributs
Espegravece Ensemble drsquoindividus ayant des caracteacuteristiques geacuteneacutetiques semblables Chez les
organismes agrave reproduction sexueacutee les individus sont interfeacuteconds le produit de leur croisement est
fertile Chez les procaryotes lrsquouniteacute repose sur les similitudes du geacutenome et du pheacutenotype
Eucaryote Organisme vivant dont les cellules possegravedent un noyau au sein duquel est isoleacute le
geacutenome nucleacuteaire
Expression geacutenique (Gene expression) Lrsquoexpression geacutenique (eacutenonceacutee dans le dogme central
de la biologie moleacuteculaire) englobe les diffeacuterentes eacutetapes conduisant du gegravene aux proteacuteines
notamment celles de transcription et de traduction Elle est sous le controcircle de divers meacutecanismes
de reacutegulation
Fait Objet drsquoanalyse dans le cadre drsquoun modegravele multidimensionnel souvent une donneacutee
numeacuterique
FASTA Un outil drsquoalignement de seacutequences ADN ou proteacuteiques proposeacute par David J Lipman et
William R Pearson en 1985 dans lrsquoarticle ldquoRapid and sensitive protein similarity searchesrdquo Le
programme original ldquoFASTPrdquo eacutetait destineacute agrave la recherche de similariteacutes entre proteacuteines
Gegravene Le gegravene est un segment drsquoADN situeacute agrave un endroit bien preacutecis (locus) sur un chromosome et
porteur drsquoune information geacuteneacutetique
Geacutenome Ensemble du mateacuteriel geacuteneacutetique (patrimoine heacutereacuteditaire) drsquoun individu ou drsquoune espegravece
Il est constitueacute de moleacutecules drsquoacides nucleacuteiques (ADN ou ARN) Les gegravenes crsquoest-agrave-dire les parties
drsquoADN porteuses drsquoune information geacuteneacutetique ne constituent qursquoune partie du geacutenome
177
GNU (GNUs Not UNIX) Projet de la Free Software Foundation visant agrave concevoir reacutealiser et
distribuer un systegraveme drsquoexploitation libre et complet inspireacute drsquoUnix
HTML (HyperText Markup Language) Langage de description de pages Web Un standard
initieacute par le W3C et compatible tous systegravemes
Internet INTERconnected NETworks Reacuteseau international de reacuteseaux interconnecteacutes
Interopeacuterabiliteacute crsquoest le fait que plusieurs systegravemes quils soient identiques ou radicalement
diffeacuterents puissent communiquer sans ambiguiumlteacute et opeacuterer ensemble
Intron Partie du gegravene situeacutee entre deux exons et dont le rocircle est encore inconnu LrsquoARN
correspondant aux introns est exciseacute par eacutepissage de lrsquoARN preacutecurseur lors de sa maturation
Locus Localisation (site) preacutecise sur le chromosome (peut ecirctre un gegravene ou toute autre position
choisie)
Modegravele de donneacutees Ensemble de regravegles permettant de formaliser le monde reacuteel sous la forme
drsquoun scheacutema de donneacutees
MOLAP (Multidimensionnal On Line Analytical Processing) Equivalent agrave OLAP utilisant
une base de donneacutees multidimensionnelle Pour le premier les jointures sont deacuteja faites ce qui
explique les performances Dans le second les jointures entre les tables de dimension et de fait sont
effectueacutees au moment de la requecircte
OLAP (On Line Analytical Processing) Caracteacuterise lrsquoarchitecture neacutecessaire agrave la mise en place
drsquoun systegraveme drsquoinformation deacutecisionnel Srsquooppose agrave OLTP Le terme OLAP deacutesigne souvent une
cateacutegorie drsquooutils drsquoexploration de donneacutees qui permettent de visualiser des valeurs dans plusieurs
dimensions
Oligonucleacuteotide Petit segment drsquoADN (quelques dizaines de nucleacuteotides) simple brin
OLTP (On Line Transactionnel Processing) Type drsquoenvironnement de traitement de
lrsquoinformation dans lequel une reacuteponse doit ecirctre donneacutee dans un temps acceptable et consistant
Opeacuteron Uniteacute de transcription constitueacutee par un promoteur (courte seacutequence neacutecessaire agrave
linitiation de la transcription) un opeacuterateur (site auquel un reacutepresseur se lie pour empecirccher le
deacuteclenchement de la transcription) et un ou plusieurs gegravenes
OQL (Object Query Language) Langage dinterrogation de bases de donneacutees objet proposeacute par
lODMG il est fondeacute sur une extension de SQL supportant chemins meacutethodes heacuteritage et
collections
Perl un langage optimiseacute pour extraire des informations de fichiers texte et imprimer des rapports
baseacutes sur ces informations Cest aussi un bon langage pour de nombreuses tacircches dadministration
systegraveme Il est eacutecrit dans le but decirctre pratique (simple agrave utiliser efficace complet) plutocirct que beau
(petit eacuteleacutegant minimaliste) Perl combine les meilleures fonctionnaliteacutes de C sed awk et sh de
maniegravere telle que les personnes familiegraveres de ces langages ne devraient avoir aucune difficulteacute avec
celui-ci
178
Pheacutenotype Lexpression visible de laction des gegravenes Il englobe tout ce qui est anatomique
(physique exteacuterieur visible de tous comme le physique inteacuterieur de chaque ecirctre) et physiologique
notamment Un comportement particulier tout comme une combinaison de comportements
peuvent eacutegalement ecirctre consideacutereacutes comme des pheacutenotypes reacutesultant de lassociation dun ou
plusieurs gegravenes En reacutealiteacute le pheacutenotype nest pas seulement du au geacutenotype (cest-agrave-dire aux gegravenes
et agrave leur expression) Il est eacutegalement du agrave laction du milieu dans lequel vit lindividu En fait un
caractegravere peut ecirctre geacuteneacutetiquement deacutetermineacute mais il se peut quil ne sexprime en reacutealiteacute pas ou
moins selon le milieu (Prenons un exemple hors comportement animal le diabegravete geacuteneacutetiquement
deacutetermineacute Lindividu deacuteveloppera la maladie ou non selon le milieu et en cas selon son
alimentation En cet exemple-ci linfluence du milieu prime sur celle du geacutenotype Mais linverse
existe eacutegalement)
Plug-in Aussi appeleacute laquo greffon raquo Logiciel tiers venant se greffer agrave un logiciel principal afin de lui
apporter de nouvelles fonctions Le logiciel principal fixe un standard deacutechange dinformations
auquel ses greffons se conforment Le greffon nest geacuteneacuteralement pas conccedilu pour fonctionner seul
Proteacuteine La proteacuteine est un produit du gegravene issu de la synthegravese proteacuteique via le code geacuteneacutetique
Les proteacuteines sont des macromoleacutecules constitueacutees de longues chaicircnes drsquoacides amineacutes (de 50 agrave
30000 acides amineacutes la moyenne eacutetant drsquoenviron 400) qui se replient sur elles-mecircme et adoptent
des conformations tregraves speacutecifiques dans lrsquoespace Lrsquoensemble des proteacuteines codeacutees sur le geacutenome (=
le proteacuteome) peut ecirctre ainsi consideacutereacute comme une collection de repliements 3D suffisants pour
assurer les principales fonctions cellulaires comme le meacutetabolisme la reacuteplication ou la gestion de
lrsquoinformation
Puce agrave ADN Technique drsquohybridation permettant une analyse geacutenomique comparative (ie une
comparaison globale) de lrsquoexpression drsquoun grand nombre de patterns drsquoARNm Immobiliseacutes sur un
support solide (matrice) des oligonucleacuteotides (simples brins) speacutecifiques de diffeacuterents gegravenes ou
ADNc connus constituent les sondes dont le rocircle est de deacutetecter des cibles marqueacutees
compleacutementaires preacutesentes dans le meacutelange complexe agrave analyser (ARNm extraits de cellules tissus
ou organismes entiers et convertis en ADNc) Les sondes sont soit greffeacutees sur le support soit
syntheacutetiseacutees in situ (uniteacute drsquohybridation = plot) Les signaux drsquohybridation sont deacutetecteacutes selon le
type de marquage radioactiviteacute ou fluorescence par mesure radiographique ou par fluorescence et
quantifieacutes
Puce agrave CGH La technique drsquohybridation geacutenomique comparative (CGH) permet de caracteacuteriser
les gains et pertes de segments chromosomiques qui ont lieu dans les cellules canceacutereuses Le
principe drsquoune puce agrave CGH est comme la puce agrave ADN fondeacute sur lrsquohybridation Dans une puce agrave
CGH on deacutepose sur une matrice une repreacutesentation complegravete drsquoun geacutenome sain chaque spot
contenant un BAC marqueacute par un fluorochrome rouge On hybride alors la puce avec un ADN
tumoral marqueacute par un fluorochrome vert Si dans la tumeur un segment chromosomique eacutetait sur-
repreacutesenteacute il y aura un excegraves drsquoADN vert correspondant agrave ce segment et apregraves hybridation du
meacutelange de sondes le segment chromosomique correspondant sera plus vert que rouge De
maniegravere symeacutetrique si un segment chromosomique eacutetait perdu dans la tumeur le segment
correspondant du chromosome normal sera plus rouge que vert Cette technique permet ainsi de
caracteacuteriser avec une reacutesolution drsquoenviron 10-20 meacutegabases lrsquoensemble des gains et pertes preacutesents
dans une tumeur donneacutee et ougrave pourraient se trouver localiseacutes respectivement des oncogegravenes et des
suppresseurs de tumeurs
179
Puce agrave proteacuteines Systegraveme permettant lrsquoanalyse de lrsquoensemble des proteacuteines syntheacutetiseacutees agrave partir
du geacutenome Des quantiteacutes de proteacuteines de lrsquoordre de la femtomole (10-15 M) sont deacuteposeacutees sur un
support meacutetallique et analyseacutees par spectromeacutetrie de masse
ROLAP (Relational On Line Analytical Processing) Cette technique permet de faire de
lanalyse multidimensionnelle agrave partir de donneacutees stockeacutees dans des bases relationnelles
Roll-up Consiste agrave repreacutesenter les donneacutees du cube agrave un niveau de granulariteacute infeacuterieur donc
sous une forme plus deacutetailleacutee
Seacutemantique La seacutemantique est dans les sciences du langage opposeacutee agrave la syntaxe La syntaxe
concerne les regravegles formelles alors que la seacutemantique concerne la signification Dans le domaine
informatique le but du ldquoSemantic Webrdquo est de permettre aux machines drsquoeacutechanger des
informations en utilisant le sens des mots comme dans les langages naturels Cet objectif ambitieux
neacutecessite un travail important sur les langages la structure des systegravemes et les ontologies
Seacutequenccedilage Deacutetermination de lrsquoordre lineacuteaire des composants drsquoune macromoleacutecule (les acides
amineacutes drsquoune proteacuteine les nucleacuteotides drsquoun acide nucleacuteique etc) Le seacutequenccedilage de lrsquoADN
(deacutecryptage du geacutenome) srsquoeffectue selon le protocole enzymatique de Sanger Seacutequenccedilage
drsquoeacutetiquettes (signature sequencing) pour identifier un gegravene on nrsquoutilise que la seacutequence drsquoun petit
fragment ou eacutetiquette (tag) correspondant agrave la signature des gegravenes
Seacutequence Succession de monomegraveres dans un polymegravere Lrsquoorientation de la seacutequence est deacutefinie
par la synthegravese du polymegravere Les seacutequences nucleacuteiques (ADN ou ARN) sont des polynucleacuteotides
(polymegraveres de nucleacuteotides)
Service Web Technologie permettant agrave des applications de dialoguer agrave distance via Internet
indeacutependamment des plates-formes et des langages sur lesquelles elles reposent
SGBD (Systegraveme de Gestion de Bases de Donneacutees) Un SGBD est une collection de logiciels
permettant de creacuteer de geacuterer et drsquointerroger efficacement une base de donneacutees indeacutependamment du
domaine drsquoapplication
Spectromeacutetrie de masse Une technique danalyse chimique permettant de deacutetecter et didentifier
des moleacutecules drsquointeacuterecirct par mesure de leur masse monoisotopique De plus la spectromeacutetrie de
masse permet de caracteacuteriser la structure chimique des moleacutecules en les fragmentant Son principe
reacuteside dans la seacuteparation en phase gazeuse de moleacutecules chargeacutees (ions) en fonction de leur rapport
massecharge (mz) La spectromeacutetrie de masse est utiliseacutee pratiquement dans tous les domaines
scientifiques physique astrophysique chimie en phase gazeuse chimie organique dosages
biologie meacutedecine
SQL (Structured Query Language) Langage de requecircte de base de donneacutees et de
programmation largement utiliseacute pour acceacuteder agrave interroger mettre agrave jour et geacuterer des donneacutees dans
des systegravemes de bases de donneacutees relationnelles En utilisant le langage SQL lutilisateur peut
extraire des donneacutees dune base de donneacutees creacuteer des bases de donneacutees et des objets de base de
donneacutees ajouter des donneacutees modifier des donneacutees existantes et exeacutecuter dautres fonctions plus
complexes SQL donne eacutegalement la possibiliteacute de modifier la configuration dun serveur de
180
modifier des paramegravetres de base de donneacutees ou de session et de controcircler les instructions de
donneacutees et daccegraves
Taxonomie Science des lois de la classification des formes vivantes Elle inclut la reconnaissance
lrsquoidentification des formes vivantes et leur rangement dans une classification
Transcriptome Ensemble des ARN messagers transcrits agrave partir du geacutenome
URL Cet acronyme signifie Uniform Resource Locator qui se traduit litteacuteralement par localisateur
uniforme de ressource et deacutesigne une chaicircne de caractegraveres (codeacutee en ASCII donc utilisant
lrsquoalphabet anglais ce qui signifie qursquoelle ne preacutesente aucun accent comme eacute ou icirc) qui est utiliseacutee pour
adresser les ressources du World Wide Web telles que des documents HTML des images ou des
sons
Web Systegraveme baseacute sur des liens hypertextes permettant lrsquoaccegraves aux ressources du reacuteseau Internet
Web seacutemantique Nest pas un Web distinct mais bien un prolongement du Web que lon connaicirct
et dans lequel on attribue agrave linformation une signification clairement deacutefinie ce qui permet aux
ordinateurs et aux humains de travailler en plus eacutetroite collaboration
XML (eXtensible Markup Language) Standard du W3C qui permet de deacutecrire les donneacutees et
de les structurer de telle sorte quelles puissent ecirctre eacutechangeacutees entre un large nombre dapplications
en diffeacuterents environnements hardware et software
Xquery (XML Query) Langage de requecircte permettant dacceacuteder agrave chacun des eacuteleacutements
dinformation dun document XML den seacutelectionner des listes et de les manipuler XQuery est un
sur-ensemble de XPath
181
ANNEXES
182
Anneacutexeacute 1 UML
La notation UML est un langage de modeacutelisation dont la premiegravere version date de 1996
UML est une norme de lOMG (Object Management Group) qui est un consortium des
principaux constructeurs et eacutediteurs de logiciels La notation UML se veut intuitive
homogegravene coheacuterente (eacutelimination des symboles embrouilleacutees ou redondants) et dune
seacutemantique preacutecise tout cela doit faciliter les eacutechanges entre les diffeacuterents intervenants
UML ne cherche pas la speacutecification agrave outrance en cas de besoin des preacutecisons peuvent
ecirctre apporteacutees par des meacutecanismes dextension etou des commentaires en texte libre
UML deacutefini 6 modegraveles pour la repreacutesentation des points de vues de la modeacutelisation des
systegravemes informatiques
Modegravele des cas dutilisation deacutecrit les besoins de lutilisateur
Modegravele des classes capture la structure statique
Modegravele dinteraction repreacutesente les sceacutenarios et les flots de messages
Modegravele des eacutetats exprime le comportement dynamique des objets
Modegravele de deacuteploiement preacutecise la reacutepartition des processus
Modegravele de reacutealisation montre les uniteacutes de travail
Ces modegraveles sont manipuleacutees gracircce agrave des diagrammes ceux-ci pouvant
correspondre agrave des vues complegravetes ou partielles des diagrammes Il existe 14 sortes de
diagrammes
Diagramme des classes structure statique il repreacutesente les classes
intervenant dans le systegraveme
Diagramme des eacutetatstransitions comportement dune classe en termes
deacutetats
Diagramme dobjets repreacutesentation des objets (des occurrences des
classes) et de leur relations ils correspondent agrave des diagrammes de
collaboration simplifieacutes (sans envoi de message)
183
Diagramme des paquetages un paquetage eacutetant un conteneur logique
permettant de regrouper et dorganiser les eacuteleacutements dans le modegravele UML le
Diagramme de paquetage sert agrave repreacutesenter les deacutependances entre paquetages
crsquoest-agrave-dire les deacutependances entre ensembles de deacutefinitions
Diagramme de structure composite permet de deacutecrire sous forme de
boicircte blanche les relations entre composants dune classe
Diagramme de seacutequences repreacutesentation temporelle des objets et de leurs
interactions
Diagramme de communication repreacutesentation simplifieacutee dun diagramme
de seacutequence se concentrant sur les eacutechanges de messages entre les objets
Diagramme global dinteraction permet de deacutecrire les enchaicircnements
possibles entre les sceacutenarios preacutealablement identifieacutes sous forme de
diagrammes de seacutequences
Diagramme de temps permet de deacutecrire les variations dune donneacutee au
cours du temps
Diagramme des cas dutilisation il permet didentifier les possibiliteacutes
dinteraction entre le systegraveme et les acteurs cest-agrave-dire toutes les
fonctionnaliteacutes que doit fournir le systegraveme
Diagramme dactiviteacutes repreacutesentation du comportement dune opeacuteration
en termes dactions
Diagramme de composants repreacutesentation des composants physiques
dune application
Diagramme de profile utilise au niveau de meacuteta-modegravele ougrave il repreacutesente les
steacutereacuteotypes des classes ou des packages
Diagramme de deacuteploiement repreacutesentation du deacuteploiement des
composants sur les dispositifs mateacuteriels
184
Anneacutexeacute 2 Baseacutes deacute donneacute eacutes nativeacutes
Le terme Native XML Database (NXD) ou base de donneacutees XML native est apparu pour la
premiegravere fois dans une campagne de publiciteacute une base de donneacutees XML native de
Software AG (Schoumlning 2001) Gracircce au succegraves de cette compagne le terme est arriveacute
dans lrsquousage courant par diffeacuterentes entreprises deacuteveloppant des produits similaires Etant
devenu un terme publicitaire il nrsquoa jamais eu de deacutefinition technique formelle Une
deacutefinition possible de ce qursquoest une base de donneacutees XML native serait la suivante
Une base de donneacutees XML native deacutefinit un modegravele logique pour un document
XML Elle stocke et reacutecupegravere les documents suivant ce modegravele de donneacutees Au
minimum il doit inclure les eacuteleacutements les attributs les donneacutees et lrsquoordre du
document
Une base de donneacutees XML native gegravere le document XML comme une uniteacute
fondamentale de stockage comme une ligne dans une table relationnelle
Les bases de donneacutees XML natives nrsquoont pas un modegravele physique sous-jacent
particulier Par exemple le modegravele physique peut ecirctre relationnel hieacuterarchique
orienteacute objet ou utiliser un format de stockage proprieacutetaire comme des fichiers
compresseacutes indexeacutes
La premiegravere partie de cette deacutefinition est similaire agrave celle des autres types de bases de
donneacutees deacutefinissant le modegravele utiliseacute pour le stockage et lrsquointerrogation Il existe un certain
nombre de modegraveles pour XML comme DOM Le modegravele choisi pour faire une base de
donneacutees XML native doit ecirctre conccedilue pour supporter arbitrairement la profondeur de
lrsquoimbrication des nœuds la complexiteacute de leurs relations leur ordre leur identiteacute etc
La seconde partie de cette deacutefinition explique que lrsquouniteacute de stockage fondamentale
dans une base de donneacutees native XML est le document XML Bien qursquoil semble possible
qursquoune base de donneacutees XML native puisse assigner ce rocircle agrave des fragments de documents
lrsquouniteacute de stockage fondamentale reste effectivement le document XML dans la plupart des
bases de donneacutees XML actuelles
La troisiegraveme partie de la deacutefinition montre que le modegravele physique sous-jacent nrsquoest pas
important Crsquoest exact et crsquoest certainement le cas pour toutes les sortes de base de
185
donneacutees Le format de stockage physique utiliseacute par une base de donneacutees relationnelle nrsquoest
pas une condition neacutecessaire au caractegravere relationnel de la base De plus il est tout agrave fait
envisageable drsquoutiliser un support relationnel pour fabriquer un moteur de base de donneacutees
XML native comme eXist lrsquoa fait agrave ses deacutebuts
Les bases de donneacutees XML natives sont donc des bases donneacutees conccedilues speacutecialement
pour stocker des documents XML et comme les autres bases de donneacutees elles gegraverent les
transactions la seacutecuriteacute lrsquoaccegraves multi-utilisateurs offrent des API de programmation des
langages de requecirctes etc Les bases de donneacutees XML natives srsquoinscrivent donc
parfaitement dans notre approche entiegraverement baseacutee sur XML
186
Anneacutexeacute 3 eacuteXist uneacute baseacute deacute donneacute eacutes XML nativeacute libreacute
Le projet eXist est une impleacutementation libre (LGPL) drsquoun systegraveme de gestion de base de
donneacutees XML native inerfaccedilable entre autres agrave lrsquoaide de XPath de XQuery et de XUpdate
Le projet a eacuteteacute entameacute en 2000 par Wolfgang Meier un deacuteveloppeur allemand Il srsquoest baseacute
sur les travaux de Shin Jang et Jin (Shin et al 1998) qui proposaient un systegraveme efficace
drsquoindexation des documents structureacutes Ce fut tout drsquoabord une expeacuterience
drsquoimpleacutementation drsquoune indexation de documents XML agrave lrsquoaide drsquoun systegraveme relationnel
Aujourdrsquohui eXist nrsquoutilise plus de relationnel et fonctionne sur un systegraveme de stockage
propre La communauteacute autour drsquoeXist ne cessant de croicirctre et les deacuteveloppeurs eacutetant tregraves
actifs eXist est devenu un SGDB XML natif complet La base de donneacutees est
compleacutetement eacutecrite en Java et peut ecirctre deacuteployeacutee de multiple faccedilons aussi bien comme un
processus serveur que dans un moteur de servlet ou encore directement inteacutegreacute dans une
application
eXist fournit un stockage sans scheacutema des documents XML dans des collections
hieacuterarchiques Une collection est un ensemble qui peut contenir drsquoautres collections ou des
documents XML En utilisant une syntaxe eacutetendue drsquoXPath et drsquoXQuery les utilisateurs
peuvent interroger diffeacuterentes parties de la hieacuterarchie de collections ou tous les documents
contenus dans la base de donneacutees Le moteur de requecirctes drsquoeXist impleacutemente un traitement
de requecircte efficace et baseacute sur les indexes Le plan drsquoindexation permet une identification
rapide des relations structurelles entre les nœuds comme la relation parent-enfant ancecirctre-
descendant et fregravere-suivant fregravere-preacuteceacutedent Baseacutee sur des algorithmes de jointures de
chemins une large fourchette drsquoexpressions de chemin est traiteacutee en utilisant uniquement
les informations drsquoindex Lrsquoaccegraves aux nœuds courants stockeacutes dans le magasin central de
documents XML nrsquoest pas neacutecessaire pour ce type drsquoexpressions
La base de donneacutees convient bien aux applications manipulant des petites ou larges
collections de documents XML qui sont occasionnellement mises agrave jour Le logiciel a eacuteteacute
conccedilu de sorte qursquoil supporte les documents orienteacutes donneacutees ou preacutesentation Cependant
lrsquointerrogation de ces derniers nrsquoest pas tregraves bien supporteacutee par les langages de requecirctes
XML comme XPath eXist fournit donc un certain nombre drsquoextensions au standard XPath
187
et XQuery pour traiter efficacement des requecirctes de recherche textuelle incluant entre
autres la recherche par mot cleacute ou via des expressions reacuteguliegraveres
Architecture drsquoeXist
eXist est bel est bien un systegraveme de gestion de base de donneacutees XML natif conformeacutement
agrave notre deacutefinition vue agrave la section 31 En effet un modegravele logique pour les documents
XML est deacutefinit et le document XML est son uniteacute de stockage fondamentale
Les deacutetails drsquoimpleacutementation concernant le stockage des donneacutees sont totalement
seacutepareacutes du corps drsquoeXist (Figure 53) Tous les appels au systegraveme de stockage se font par des
courtiers (Brokers) Un courtier peut ecirctre vu comme une interface entre le cœur drsquoeXist et
les systegravemes de stockages Ces classes courtiers fournissent un set drsquoinstructions basiques
comme ajouter supprimer ou reacutecupeacuterer des documents ou des fragments De plus elles
possegravedent des meacutethodes pour utiliser les indexes comme par exemples reacutecupeacuterer un
ensemble de nœuds correspondant agrave un certain nom Les moteurs de requecircte Xpath et
XQuery sont impleacutementes de la mecircme maniegravere comme des modules gravitant autour du
cœur drsquoeXist
eXist propose plusieurs types de deacuteploiements Le moteur de base de donneacutees peut
fonctionner comme un processus serveur autonome fournissant des interfaces http et
XML-RPC107 pour des accegraves deacuteporteacutes Il peut ecirctre inteacutegreacute agrave des applications lesquelles
peuvent avoir accegraves directement agrave la base de donneacutees via lrsquoAPI XMLDB108 Enfin il peut
fonctionner agrave lrsquointeacuterieur drsquoun serveur de servlet tel que Tomcat drsquoApache Les accegraves XML-
RPC SOAP109 et WebDAV110 sont fournis par les servlets
Figure 53 Architecture deXist copy Wolfgang Meier
107
httpxmlrpcscriptingcomspechtml 108
httpxmldb-orgsourceforgenetxapixapi-drafthtml 109
httpwwww3org2000xpGroup 110
httpwwwietforgrfcrfc2518txt
188
BIBLIOGRAPHIE
189
Bibliographieacute
Achard F Vaysseix G and Barillot E (2001) XML bioinformatics and data integration Bioinformatics 17 115-125
Aerts K Maesen K and Von Rompaey A (2006) A practical Example of Semantic Interoperability of Large-Scale Topographic Database using Semantic Web technologies 9th AGILE International Conference on Geographic Information Science Visegraacuted Hungary
Alashqur AM Su SYW and Lam H (1989) OQL A Query Language for Manipulating Object-oriented Databases Proceedings of the 15th International Conference on Very Large Data Bases (VLDB rsquo89) Morgan Kaufmann pp 433ndash442
Altschul SF et al (1990) Basic local alignment search tool J Mol Biol 215 403-410
Arenson AD (2003) Federating data with Information Integrator Briefings in Bioinformatics 4 375-381
Ashburner M et al (2000) Gene ontology tool for the unification of biology Nature genetics 25 25-29
Ault M et al (2003) Oracle Database 10g New Features Oracle10g Reference for Advanced Tuning and Administration Rampant TechPress
Baader F et al (2003) The Description Logic Handbook Theory Implementation and Applications Cambridge University Press
Baker PG et al (1999) An ontology for bioinformatics applications Bioinformatics 15 510-520
Balko S et al (2004) BioDataServer an Applied Molecular Biological Data Integration Service Data Integration in the Life Sciences In Rahm E (ed) Springer Berlin Heidelberg pp 140-155
Benitez-Guerrero E Collet C and Adiba M (1999) Entrepocircts de donneacutees syntheacutese et analyse Institut dinformatique et de matheacutematiques appliqueacutees de Grenoble Grenoble FRANCE
Benitez-Guerrero E Collet C and Adiba M (2001) Entrepocircts de donneacutees caracteacuteristiques et probleacutematique Technique et Science Informatiques 20 145 -178
Benson DA et al (2011) GenBank Nucleic Acids Research 39 D32-D37
Bernstein PA and Rahm E (2000) Data warehouse scenarios for model management Proceedings of the 19th international conference on Conceptual modeling Springer-Verlag Salt Lake City Utah USA pp 1-15
Bilofsky HS and Christian B (1988) The GenBank genetic sequence data bank Nucleic Acids Research 16 1861-1863
Bishr YA (1998) overcoming the semantic and other barriers to gis interoperability International Journal of Geographical Information Science 12 299ndash314
190
Blagosklonny MV and Pardee AB (2002) The Restriction Point of the Cell Cycle Cell Cycle 1 102-104
Boguski MS Lowe TMJ and Tolstoshev CM (1993) dbEST database for [ldquo]expressed sequence tags[rdquo] Nat Genet 4 332-333
Boussaiumld O et al (2006) Conception et construction dentrepocircts en XML EDA06 Versaille
Briache A et al (2012) Transparent mediation-based access to multiple yeast data sources using an ontology driven interface BMC bioinformatics 13 S7
Brooksbank C Cameron G and Thornton J (2005) The European Bioinformatics Institutes data resources towards systems biology Nucleic Acids Research 33 D46-D53
Brown PO and Botstein D (1999) Exploring the new world of the genome with DNA microarrays Nat Genet
Buschmann F et al (1996) Pattern-Oriented Software Architecture - A System of Patterns John Wiley and Sons
Calvanese D et al (1998) Source Integration in Data Warehousing Proceedings of the 9th International Workshop on Database and Expert Systems Applications IEEE Computer Society pp 192
Codd EF Codd SB and Salley CT (1993) Providing OLAP (On-Line Analytical Processing) to User-Analysis An IT Mandate E F Codd amp Associates
Cohen-Boulakia S B DS and Froidevaux C (2005) A User-Centric Framework for Accessing Biological Sources and Tools Data Integration in the Life Sciences
Cohen-Boulakia S et al (2002) Genopage A database of all protein modules encoded by completely sequenced genomes JOBIM 2002 Journees Ouvertes Biologie Informatique et Mathematiques pp 187-193
Cohen-Boulakia S et al (2004) Selecting biomedical data sources according to user preferences Bioinformatics 20 i86-i93
Colonna F-M (2008) Inteacutegration de donneacutees heacuteteacuterogegravenes et distribueacutees sur le Web et applications agrave la biologie UNIVERSITEacute PAUL CEacuteZANNE AIX-MARSEILLE III
Collaborative TPGD (2001) PlasmoDB An integrative database of the Plasmodium falciparum genome Tools for accessing and analyzing finished and unfinished sequence data Nucleic Acids Research 29 66-69
Committee oFatIoCaB (2005) Catalyzing Inquiry at the Interface of Computing and Biology National Research Council of the National Academies Washington Etats-Unis
Consortium TU (2010) The Universal Protein Resource (UniProt) in 2010 Nucleic Acids Research 38 D142-D148
Cornell M et al (2003) GIMS an integrated data storage and analysis environment for genomic and functional data Yeast 20 1291-1306
Chamberlin D (1998) A Complete Guide to DB2 Universal Database Morgan Kaufmann San Francisco Californie
Chang A et al (2009) BRENDA AMENDA and FRENDA the enzyme information system new content and tools in 2009 Nucleic Acids Research 37 D588-D592
Chaudhuri S and Dayal U (1997) An overview of data warehousing and OLAP technology SIGMOD Rec 26 65-74
191
Chen R Felciano R and Altman R (1997) RIBOWEB Linking Structural Computations to a Knowledge Base of Published Experimental Data Proceedings of the 5th International Conference on Intelligent Systems for Molecular Biology AAAI Press pp 84-87
Chin-A-Woeng TFC et al (2000) Root Colonization by Phenazine-1-Carboxamide-Producing Bacterium Pseudomonas chlororaphis PCL1391 Is Essential for Biocontrol of Tomato Foot and Root Rot Molecular Plant-Microbe Interactions 13 1340-1345
Chin-A-Woeng TFC et al (2001) Phenazine-1-Carboxamide Production in the Biocontrol Strain Pseudomonas chlororaphis PCL1391 Is Regulated by Multiple Factors Secreted into the Growth Medium Molecular Plant-Microbe Interactions 14 969-979
Chniber O and Kerzazi A Navas-Delgado I and Aldana-Montes JF (2008) KOMF The Khoas Ontology-based Mediator Framework NETTAB 2008 Bioinformatics Methods for Biomedical Complex System Applications Italy
Choquet R and Boussaiumld O (2007) Interrogation OLAP drsquoun entrepocirct de donneacutees XML EGCrsquo07 Extraction et Gestion des Connaissances Belgique
Davidson SB et al (2001) K2Kleisli and GUS experiments in integrated access to genomic data sources IBM Syst J 40 512-531
Davidson SB Overton C and Buneman P (1995) Challenges in integrating biological data sources Journal of Computational Biology 2 557ndash572
Davidson SB et al (1997) BioKleisli A Digital Library for Biomedical Researchers (1996) Int J on Digital Libraries 1 36-53
Do H-H and Rahm E (2004) Flexible Integration of Molecular-biological Annotation Data The GenMapper Approach In E Bertino SC D Plexousakis V Christophides M Koubarakis K Bohm and E Ferrari (ed) 9th International Conference on Extending Database Technology Heraklion Crete Greece pp 811-822
Donlin MJ (2002) Using the Generic Genome Browser (GBrowse) In Current Protocols in Bioinformatics John Wiley amp Sons Inc
Ely JW et al (2000) A taxonomy of generic clinical questions classification study British Medical Journal BMJ 321 429ndash432
Emmanuel B et al (2000) The taxonomy of Pseudomonas fluorescens and Pseudomonas putida current status and need for revision Agronomie 20
Etzold T and Argos P (1993) SRSmdashan indexing and retrieval tool for flat file data libraries Computer applications in the biosciences CABIOS 9 49-57
Etzold T Ulyanov A and Argos P (1996) SRS Information retrieval system for molecular biology data banks In Russell FD (ed) Methods in Enzymology Academic Press pp 114-128
Eyquem A Alouf J and Montagnier L (2005) Traiteacute de microbiologie clinique PICCIN pp 68
Fasman KH Cuticchia AJ and Kingsbury DT (1994) The GDB Human Genome Data Base anno 1994 Nucleic Acids Research 22 3462ndash3469
Franco J-M (1997) Le Data Warehouse - Le Data Mining In Eyrolles (ed) Paris
Friedman M Levy A and Millstein T (1999) Navigational plans for data integration Proceedings of the sixteenth national conference on Artificial intelligence and the eleventh Innovative applications of artificial intelligence conference innovative applications of artificial intelligence American Association for Artificial Intelligence Orlando Florida United States pp 67-73
192
Galperin MY and Fernaacutendez-Suaacuterez XM (2011) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research
Galperin MY and Fernaacutendez-Suaacuterez XM (2012) The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection Nucleic Acids Research 40 D1-D8
Gasteiger E et al (2003) ExPASy the proteomics server for in-depth protein knowledge and analysis Nucleic Acids Research 31 3784-3788
Gautier C (1981) Nucleic acid sequences handbook Praeger
Glasner JD et al (2008) Enteropathogen Resource Integration Center (ERIC) bioinformatics support for research on biodefense-relevant enterobacteria Nucleic Acids Research 36 D519-D523
Goble C (2002) Position Statement Musings on Provenance Workflow and (Semantic Web) Annotations for Bioinformatics DansWorkshop on Data Derivation and Provenance
Griffith A (2005) Java XML and the JAXP In Wiley (ed)
Gruber TR (1995) Toward principles for the design of ontologies used for knowledge sharing Int J Hum-Comput Stud 43 907-928
Gueacuterin E et al (2005) Integrating and warehousing liver gene expression data and related biomedical resources in GEDAW Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 158-174
Gupta P and Lin E (1994) DataJoiner a practical approach to multi-database access Parallel and Distributed Information Systems 1994 Proceedings of the Third International Conference on pp 264
Haas D and Keel C (2003) REGULATION OF ANTIBIOTIC PRODUCTION IN ROOT-COLONIZING PSEUDOMONAS SPP AND RELEVANCE FOR BIOLOGICAL CONTROL OF PLANT DISEASE Annual Review of Phytopathology 41 117-153
Haas LM et al (2001) DiscoveryLink A system for integrated access to life sciences data sources IBM Systems Journal 40 489-511
Hamm GH and Cameron GN (1986) The EMBL data library Nucleic Acids Research 14 5-9
Hammer J and Schneider M ( 2003) Going back to our database roots for managing genomic data OMICS 7 117-119
Harold ER and Means WS (2004) XML in a Nutshell OReilly Media
Hart K et al (1994) Using a Query Language to Integrate Biological Data 1st meeting on the Interconnection of Molecular Biology Databases Stanford California USA
Hartmann J et al (2005) Ontology Metadata Vocabulary and Applications On the Move to Meaningful Internet Systems 2005 OTM 2005 Workshops In Meersman R Tari Z and Herrero P (eds) Springer Berlin Heidelberg pp 906-915
Hernandez T and Kambhampati S (2004) Integration of biological sources current systems and challenges ahead SIGMOD Rec 33 51-60
Hillebrand GG et al (1995) Undecidable Boundedness Problems for Datalog Programs J of Logic Programming 25 163--190
Hood L and Galas D (2003) The digital code of DNA Nature 421 444-448
Hunter J (2003) X is for Query Oracle Magazine
Inmon WH (1996) Building the data warehouse In Wiley J Sons and Sons (eds) New York
Inmon WH (2002) Building the Data Warehouse In Wiley J (ed)
193
Jagadish HV Lakshmanan LVS and Srivastava D (1999) What can Hierarchies do for Data Warehouses Proceedings of the 25th International Conference on Very Large Data Bases Morgan Kaufmann Publishers Inc pp 530-541
Jagadish HV and Olken F (2003) Data Management for the Biosciences Report of the NSFNLM Workshop on Data Management for Molecular and Cell Biology
Kadima H and Monfor V (2003) Les Web Services techniques dacuteemarches et outils In DUNOD (ed)
Kanehisa M and Goto S (2000) KEGG Kyoto Encyclopedia of Genes and Genomes Nucleic Acids Research 28 27-30
Kanehisa M et al (2006) From genomics to chemical genomics new developments in KEGG Nucleic Acids Research 34 D354-D357
Kanehisa M et al (2004) The KEGG resource for deciphering the genome Nucleic Acids Research 32 D277-D280
Karp PD et al (2000) The EcoCyc and MetaCyc databases Nucleic Acids Research 28 56-59
Kasprzyk A et al (2004) EnsMart A Generic System for Fast and Flexible Access to Biological Data Genome Research 14 160-169
Katz H et al (2003) Xquery from the Experts A Guide to the W3C Xml Query Language Addison Wesley
Keseler IM et al (2005) EcoCyc a comprehensive database resource for Escherichia coli Nucleic Acids Research 33 D334-D337
Kimball R (2002) data warehouse toolkit
Kimball R (2003) The Bottom-Up Misnomer
King RA Hameurlain A and Morvan F (2008) Ontology-based data source localization in a structured peer-to-peer environment Proceedings of the 2008 international symposium on Database engineering amp38 applications ACM Coimbra Portugal pp 9-18
Kirsten T Do H-HD and Rahm E (2004) A Data Warehouse for Multidimensional Gene Expression Analysis Technical Report IZBI Working Paper
Lacot X (2005) Introduction agrave OWL un langage XML dontologies Web
Lacroix Z and Edupuganti V (2004) How biological source capabilities may affect the data collection process Computational Systems Bioinformatics Conference 2004 CSB 2004 Proceedings 2004 IEEE pp 596-597
Lacroix Z et al (2005a) BioNavigation selecting optimum paths through biological resources to evaluate ontological navigational queries Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 275-283
Lacroix Z et al (2005b) BioNavigation using ontologies to express meaningful navigational queries over biological resources Computational Systems Bioinformatics Conference 2005 Workshops and Poster Abstracts IEEE pp 137-138
Lans RFVD (1989) The SQL standard a complete guide reference Prentice Hall International Ltd Hertfordshire Royaume-Uni
Lee T et al (2006) BioWarehouse a bioinformatics database warehouse toolkit BMC bioinformatics 7 170
194
Levy AY (1999) Combining artificial intelligence and databases for data integration In Michael JW and Manuela V (eds) Artificial intelligence today Springer-Verlag pp 249-268
Lipman DJ and Pearson WR (1985) Rapid and sensitive protein similarity searches Science 227 1435ndash1441
List B et al (2002) A Comparison of Data Warehouse Development Methodologies Case Study of the Process Warehouse Database and Expert Systems Applications In Hameurlain A Cicchetti R and Traunmuumlller R (eds) Springer Berlin Heidelberg pp 203-215
MacGregor R and Bates R (1987) The Loom knowledge representation language ISIRS-87-188 University of Southern California Information Science Institute Marina del Rey CA
Mahboubi H et al (2009) Enhancing XML data warehouse query performance by fragmentation Proceedings of the 2009 ACM symposium on Applied Computing ACM Honolulu Hawaii pp 1555-1562
Mahoui M et al (2005) Semantic correspondence in federated life science data integration systems Proceedings of the Second international conference on Data Integration in the Life Sciences Springer-Verlag San Diego CA pp 137-144
Markowitz VM et al (2005) The integrated microbial genomes (IMG) system Nucleic Acids Research 34 D344-D348
Marrakchi K et al (2010) A Data Warehouse Approach to Semantic Integration of Pseudomonas Data Data Integration in the Life Sciences In Lambrix P and Kemp G (eds) Springer Berlin Heidelberg pp 90-105
Martin DW et al (1993) Mechanism of conversion to mucoidy in Pseudomonas aeruginosa infecting cystic fibrosis patients Proceedings of the National Academy of Sciences 90 8377-8381
Martin P (1996) Exploitation de graphes conceptuels et de documents structureacutes et hypertextes pour lacquisition de connaissances et la recherche dinformations pp 378
Mazzarelli JM et al (2007) EPConDB a web resource for gene expression related to pancreatic development beta-cell function and diabetes Nucleic Acids Research 35 D751-D755
McLaughlin B (2002) Java amp XML Data Binding In Media OR (ed)
McLeod MP et al (2006) The complete genome of Rhodococcus sp RHA1 provides insights into a catabolic powerhouse Proceedings of the National Academy of Sciences 103 15582-15587
Mewes HW et al (2002) MIPS a database for genomes and protein sequences Nucleic Acids Research 30 31-34
Minoru K (1997) A database for post-genome analysis Trends in Genetics 13 375-376
Mork P Halevy A and Tarczy-Hornoch P (2001) A model for data integration systems of biomedical data applied to online genetic databases Proc AMIA Symp pp 473ndash477
Mork P Halevy A and Tarczy-Hornoch P (2002) PQL a declarative query language over dynamic biological schemata Proc AMIA Symp pp 533-537
Morris SB (2003) Network Management MIBs and MPLS Principles Design and Implementation Prentice Hall
Moszer I et al (2002) SubtiList the reference database for the Bacillus subtilis genome Nucleic Acids Research 30 62-65
195
Muumlnch R et al (2003) PRODORIC prokaryotic database of gene regulation Nucleic Acids Research 31 266-269
Navas-Delgado I (2008) An Infrastructure for Developing Applications in the Semantic Web UNIVERSIDAD DE MALAGA Higher Technical School of Computer Science Engineering Malaga
Navas-Delgado I and Aldana-Montes J (2008) SD-Core Generic Semantic Middleware Components for the Semantic Web Knowledge-Based Intelligent Information and Engineering Systems In Lovrek I Howlett R and Jain L (eds) Springer Berlin Heidelberg pp 617-622
Navas-Delgado I and Aldana-Montes JF (2009) Extending SD-Core for Ontology-based Data Integration JUCS 15 3201-3230
Olken F and Jagadish HV (2003) Data Management for Integrative Biology OMICS 7 1-2
Pandey A and Mann M (2000) Proteomics to study genes and genomes Nature 405 837-846
Peterson JD et al (2001) The Comprehensive Microbial Resource Nucleic Acids Research 29 123-125
Rahm E and Bernstein PA (2001) A survey of approaches to automatic schema matching The VLDB Journal 10 334-350
Rebhan M et al (1997) GeneCards integrating information about genes proteins and diseases Trends in Genetics 13 163
Rector AL et al (1997) The GRAIL concept modelling language for medical terminology Artificial Intelligence in Medicine 9 139-171
Reese G (2001) JDBC et Java - Guide du programmeur In OrsquoReilly (ed)
Rehm B (2009) Pseudomonas Wiley-VCH
Roth MT et al (1996) The Garlic project SIGMOD Rec 25 557
Roychoudhury S et al (1992) Characterization of guanosine diphospho-D-mannose dehydrogenase from Pseudomonas aeruginosa Structural analysis by limited proteolysis Journal of Biological Chemistry 267 990-996
Schoumlning DH (2001) Tamino - A DBMS Designed for XML Proceedings of the 17th International Conference on Data Engineering IEEE Computer Society pp 149
Sen A and Sinha AP (2005) A comparison of data warehousing methodologies Commun ACM 48 79-84
Sen TZ et al (2010) Choosing a genome browser for a Model Organism Database surveying the Maize community Database 2010
Shaker R et al (2002) Rule Driven Bi-Directional Translation System Remapping Queries and Result Sets Between a Mediated Schema and Heterogeneous Data Sources Proc AMIA Symp American Medical Informatics Association pp 692-696
Sheth AP and Larson JA (1990) Federated database systems for managing distributed heterogeneous and autonomous databases ACM Comput Surv 22 183-236
Shin D Jang H and Jin H (1998) BUS an effective indexing and retrieval scheme in structured documents Proceedings of the third ACM conference on Digital libraries ACM Pittsburgh Pennsylvania United States pp 235-243
Sidman KE et al (1988) The protein identification resource (PIR) Nucleic Acids Research 16 1869-1871
196
Stephens J and Russell C ( 2004) Beginning MySQL Database Design and Optimization Springer-Verlag New York
Stevens R et al (2000) TAMBIS Transparent Access to Multiple Bioinformatics Information Sources Bioinformatics 16 184-186
Stevens R et al (2001) A classification of tasks in bioinformatics Bioinformatics 17 180-188
Stevens R et al (2002) Building a bioinformatics ontology using OIL Information Technology in Biomedicine IEEE Transactions on 6 135-141
Sujansky W (2001) Heterogeneous database integration in biomedicine Comput Biomed Res 34 285-298
Sun W and Liu D-X (2006) Using Ontologies for Semantic Query Optimization of XML Database Knowledge Discovery from XML Documents In Nayak R and Zaki M (eds) Springer Berlin Heidelberg pp 64-73
Thomas J and Stefan D (2008) Towards generating ETL processes for incremental loading Proceedings of the 2008 international symposium on Database engineering applications ACM Coimbra Portugal pp 101-110
Toumani K Jaudoin H and Schneider M (2007) Geacuteneacuteration automatique de correspondances seacutemantiques entre scheacutemas INFORSID pp 261-276
Walter S (2001) Heterogeneous Database Integration in Biomedicine Journal of Biomedical Informatics 34 285-298
Wall L (2000) Programming Perl OrsquoReilly amp Associates Sebastopol Californie Etats-Unis
Waugh A et al (2002) RNAML a standard syntax for exchanging RNA information RNA 8 707-717
Wiederhold G (1992) Mediators in the Architecture of Future Information Systems Computer 25 38-49
Winsor GL et al (2009) Pseudomonas Genome Database facilitating user-friendly comprehensive comparisons of microbial genomes Nucleic Acids Research 37 D483-D488
Xuan W et al (2009) Open Biomedical Ontology-based Medline exploration BMC bioinformatics 10 S6
Zdobnov EM et al (2002) The EBI SRS servermdashnew features Bioinformatics 18 1149-1150
Zdobnov EM et al (2002) The EBI SRS servermdashrecent developments Bioinformatics 18 368-373
Zimmermann R et al (2006) A Distributed Geotechnical Information Management and Exchange Architecture Internet Computing IEEE 10 26-33
197
Reacute feacute reacutenceacutes Inteacuterneacutet
198
Reacute feacute reacutenceacutes Inteacuterneacutet
(NCBI) Microbial Genomes httpwwwncbinlmnihgovgenomesMICROBESmicrobial_taxtreehtml
AmiGO httpamigogeneontologyorgcgi-binamigogocgi
Apache Server httphttpdapacheorg
ArrayExpress httpwwwebiacukarrayexpress
ASN httpwwwbgbmorgtdwgaccDocumentsasn1glosshtm
Auto-formation en Bioinformatique httpwwwdsiuniv-paris5frbio2autof2cha2_inthtm
Axis httpwsapacheorgaxisoverviewhtml
BioCyc httpbiocycorg
BioGrid httpthebiogridorg
Bioperl httpwwwbioperlorgwikiMain_Page
biosql httpwwwbiosqlorgwikiMain_Page
Blast httpblastncbinlmnihgovBlastcgi
Bots httpenwikipediaorgwikiWikipediaBots
BRENDA httpwwwbrenda-enzymesinfo
Chado httpgmodorgwikiChado_-_Getting_Started
ChEBI httpwwwebiacukchebi
CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
core httpdublincoreorg
CYGD-MIPS httpmipshelmholtz-muenchendegenreprojyeast
dbEST httpwwwncbinlmnihgovdbEST
dbSNP httpwwwncbinlmnihgovprojectsSNP
DDBJ httpwwwddbjnigacjp
Dublin Core httpdublincoreorg
EBI httpwwwebiacuk
EcoCyc httpecocycorg
EMBL httpwwwemblde
EMBO httpwwwemboorg
ensEMBL httpwwwensemblorgindexhtml
Enteropathogen Resource Integration Center httppatricbrcvbivteduportalportalpatricIncumbentBRCspage=eric
Entrez httpwwwncbinlmnihgovsitesgquery
EPConDB httpwwwcbilupenneduepcondb42
eXist httpexistsourceforgenet
199
ExPASy httpexpasyorg
ExPASy httpexpasyorg
Extension_Matrix httpwwwmediawikiorgwikiExtension_Matrix
FASTA httpwwwebiacukToolssssfasta
Flybase httpflybaseorg
Garlic httpwwwalmadenibmcomcsgarlic
Gbrowse httpgmodorgwikiGBrowse
GDB httpgdbwwwgdborg
Genbank httpwwwncbinlmnihgovnuccore
GeneCards httpwwwgenecardsorg
GenMapper httpducatiizbiuni-leipzigde8080GenMapperservletguiMainFrame
GEO httpwwwncbinlmnihgovgeo
GeWare httpducatiizbiuni-leipzigde8080GewareservletdeizbigewarecommonformsFrameSet
GFF httpgmodorgwikiGFF
GO httpwwwgeneontologyorg
HGNC httpwwwgenenamesorg
IMG httpimgjgidoegov
inmon httpenwikipediaorgwikiBill_Inmon
InterPro httpwwwebiacukinterpro
Java DOM httpdocsoraclecomjavase142docsapiorgw3cdompackage-summaryhtml
JCVI CMR httpcmrjcviorgtigr-scriptsCMRCmrHomePagecgi
jena httpjenaapacheorg
Jetty httpjettycodehausorgjetty
JWBF httpjwbfsourceforgenet
KEGG httpwwwgenomejpkegg
LION Bioscience AG httpwwwbiochipnetcomnode1561
MediaWiki configuration httpwwwmediawikiorgwikiCategoryMediaWiki_configuration_settings
Medline httpwwwmedlinecom
MeSH httpwwwnlmnihgovmesh
MetaCyc httpmetacycorg
MGI httpwwwinformaticsjaxorg
Microbes Online httpwwwmicrobesonlineorg
MIPS httpwwwhelmholtz-muenchendeenibis
MySQL httpwwwmysqlcom
NCBI httpwwwncbinlmnihgov
NIH httpwwwnihgov
OBO httpwwwobofoundryorg
ODMG wwwodmgorg
OMIM httpwwwomimorg
ORACLE httpwwworaclecomindexhtml
OWL httpwwww3orgTR2009WD-owl2-primer-20090611
PDB httpwwwrcsborgpdbhomehomedo
200
peer-review literature httpenwikipediaorgwikiPeer_review
perl httpdevperlorgperl5
Pfam httppfamsangeracuk
PhosphGrid httpwwwphosphogridorg
Plasmodb httpplasmodborgplasmo
ProDom httpprodomprabifrprodomcurrenthtmlhomephp
PRODORIC httpwwwprodoricde
Proteacutegeacute httpprotegestanfordedu
Pseudomonas Genome Database httpwwwpseudomonascom
Pseudomonas syringae Genome Resources httpwwwpseudomonas-syringaeorg
PseudomonasDW httpwwwpseudomonasdwkhaosumaes
PubMed httpwwwncbinlmnihgovpubmed
Qexo httpwwwxmlcompuba20030611qexohtml
RDF httpwwww3orgTRrdf-concepts
RDFS httpwwww3orgTRrdf-schema
RefSeq httpwwwncbinlmnihgovRefSeq
RiboWeb httphelix-webstanfordeduribowebhtml
SGD database httpwwwyeastgenomeorg
SRS httpsrsebiacuk
Tomcat httptomcatapacheorg
UML httpwwwumlorg
UMLS httpwwwnlmnihgovresearchumls
UniGene httpwwwncbinlmnihgovunigene
UniProt httpwwwuniprotorg
W3C httpwwww3org
watchlist httpwwwmediawikiorgwikiManualWatchlist
WebDAV httpwwwietforgrfcrfc2518txt
Wikipedia httpwwwwikipediaorg
xBASE httpwwwxbaseacuk
XML httpwwww3schoolscomxml
XML DB httpxmldb-orgsourceforgenetxapixapi-drafthtml
XML-RPC httpxmlrpcscriptingcomspechtml
XML-RPC SOAP httpwwww3org2000xpGroup
ZFIN httpzfinorg